AI 대규모 모델 훈련을 지원하는 Mellanox 네트워크 아키텍처 분석
October 5, 2025
날짜:2023년 11월 18일
인공지능 모델의 크기와 복잡성이 기하급수적으로 증가함에 따라 수천 개의 GPU를 연결하는 네트워크 조직은 교육 효율성의 중요한 결정 요소가되었습니다.멜라녹스 인피니밴드이 기술은 현대 인공지능 슈퍼컴퓨터 클러스터의 기본 척추로 등장했습니다.인공지능 모델 교육이 기사는 InfiniBand를 세계에서 가장 까다로운 AI 워크로드를 가속화하는 데 실질적인 표준으로 만드는 아키텍처 혁신을 해체합니다.
현대인공지능 모델 교육, 예를 들어 큰 언어 모델 (LLM) 과 같이, 모델 매개 변수가 데이터의 각 미니 팩을 처리 한 후 수천 개의 GPU를 통해 동기화되는 데이터 병렬 전략에 의존합니다.이 동기화 단계에 소요되는 시간모든 것을 줄이는 것으로 알려져 있습니다.GPU 네트워크, 이 통신 오버헤드는 전체 훈련 주기의 50% 이상을 소비 할 수 있으며 전체 GPU 사용량을 크게 줄이고 몇 주에서 몇 달까지 통찰력을 늘릴 수 있습니다.네트워크는 더 이상 단순한 데이터 파이프가 아닙니다.그것은 핵심 컴퓨팅 구성 요소입니다.
멜라녹스 인피니밴드하드웨어 기반의 가속 엔진을 통해 이 병목을 직접 해결합니다. 네트워크가 수동적인 참여자에서 활성 컴퓨팅 자산으로 변하는 것이죠.
- SHARP (Scalable Hierarchical Aggregation and Reduction Protocol): 확장 가능한 계층적 집계 및 감소 프로토콜이 혁명적 기술은 인피니밴드 스위치 내에서 직접 집계 연산 (예: 합, 평균) 을 수행합니다. 모든 그레디언트 데이터를 각 GPU로 전송하는 대신,SHARP는 네트워크 조직의 데이터를 줄입니다., 전송된 데이터의 양과 동기화 시간이 급격히 줄어들 수 있습니다. 이것은 최대 50%까지 집단 작업을 가속화 할 수 있습니다.
- 어댑티브 라우팅 및 혼잡 제어:인피니밴드의 동적 라우팅 기능은 혼잡한 핫스팟을 중심으로 자동으로 트래픽을 조정합니다.네트워크 조직의 균일한 활용을 보장하고 모든 사람이 모든 사람에게 집중적인 통신 단계에서 단일 링크가 병목이되는 것을 방지합니다..
- 초저연속과 높은 대역폭:600나노초 이하의 끝에서 끝까지의 지연시간과 400Gb/s 이상 지원멜라녹스 인피니밴드GPU 사이의 거의 실시간 매개 변수 교환에 필요한 원시 속도를 제공합니다.
인피니밴드의 아키텍처 장점은 대규모 AI 워크로드를 실행하는 기업에 대한 우수한 비즈니스 및 연구 결과에 직접 번역됩니다.
| 메트릭 | 표준 이더넷 패브릭 | 멜라녹스 인피니밴드 직물 | 개선 |
|---|---|---|---|
| GPU 활용 (대규모 교육) | 40~60% | 90~95% | >50% 증가 |
| 모델 훈련 시간 (예: 1B 매개 변수 LLM) | 30일 | 18일 | 40% 감소 |
| 모든-감축을 위한 효과적인 대역폭 | ~120 Gb/s | ~380 Gb/s | 3배 더 높은 사용량 |
| 교육 직무당 에너지 소비 | 1.0x (기본) | ~0.7x | 30% 감소 |
이 측정값은 최적화된GPU 네트워크이 전략은 사치품이 아니라 수백만 달러의 인공지능 클러스터 투자를 통해 수익을 창출하기 위한 필수요소입니다.
인공지능 연구의 일반용 데이터센터 설계 시대는 끝나고 있습니다.인공지능 모델 교육GPU의 컴퓨팅 파워가 지능적이고 가속된 네트워크에 의해 일치하는 공동 설계 접근 방식을 요구합니다.멜라녹스 인피니밴드통신 비용을 최소화하고 GPU 사용량을 극대화함으로써, 인피니밴드 아키텍처는 더 빠른 혁신을 해제하고, 교육 비용을 절감하는 열쇠입니다.그리고 인공지능의 이전에는 불가능했던 규모를그것은 AI의 다음 세대의 돌파구에 필수적인 기초입니다.

