인공지능 대형 모델 훈련을 지원하기 위한 Mellanox의 네트워크 아키텍처 분석
September 20, 2025
요약:인공지능의 컴퓨팅 요구가 폭발적으로 증가함에 따라 네트워크는 중요한 병목이되었습니다.GPU 네트워크기술들은 효율적이고 확장 가능한인공지능 모델 교육큰 언어 모델과 다른 복잡한 신경망의
이 패러다임은인공지능 모델 교육단일 서버 설정에서 수천개의 GPU를 통한 대대적인 병렬 컴퓨팅으로 이동했습니다.GPU 사이에 데이터를 전송하는 데 소요되는 시간은 실제 계산에 소요되는 시간을 초과 할 수 있습니다.업계 분석에 따르면 대규모 클러스터의 경우 네트워크 병목으로 인해 GPU 활용률이 50% 이하로 떨어질 수 있습니다.계산 자원과 자본 투자의 상당한 낭비를 나타냅니다.효율적GPU 네트워크더 이상 사치품이 아니라 높은 성과와 투자 수익을 달성하기 위한 근본적인 요인입니다.
멜라노크스 (지금 NVIDIA의 일부) 인피니밴드 기술은 고성능 컴퓨팅과 AI의 엄격한 요구 사항을 충족하기 위해 처음부터 설계되었습니다.그 아키텍처는 GPU를 연결하기 위한 전통적인 이더넷에 비해 몇 가지 주요 장점을 제공합니다.:
- 초저연속성:600나노초 이하의 끝에서 끝까지의 지연, 노드 간의 통신 대기 시간을 크게 줄여줍니다.
- 높은 대역폭:포트당 200Gb/s (HDR) 및 400Gb/s (NDR) 속도를 지원하여 GPU로 데이터 흐름이 중단되지 않도록 보장합니다.
- 원격 직접 메모리 액세스 (RDMA):서로 다른 서버의 GPU가 CPU와 운영 체제 커널을 우회하여 서로 다른 메모리에서 직접 읽고 쓸 수 있습니다. 이 "커널 우회"는 오버헤드와 대기 시간을 크게 줄입니다.
순수한 속도를 넘어서멜라녹스 인피니밴드대용량 생산에 필수적인 첨단 기술을 포함하고 있습니다.인공지능 모델 교육일자리.
SHARP는 혁명적 인 네트워크 컴퓨팅 기술입니다. 집합을 위해 모든 데이터를 컴퓨팅 노드 (예: 훈련에서 일반적인 모든 감소 연산) 로 다시 보내는 대신,SHARP는 네트워크 스위치 자체 내에서 집계 작업을 수행이것은 네트워크를 통과하는 데이터의 양을 크게 줄이고 집단 커뮤니케이션 시간을 최대 50%까지 줄이고 교육 시간표를 직접적으로 가속화합니다.
인피니밴드 (InfiniBand) 의 조직은 다중 경로에서 트래픽을 동적으로 분배하기 위해 적응형 라우팅을 사용하며, 핫 스팟과 링크 혼잡을 방지합니다.이는 인공지능 워크로드의 전형적인 비 일률적인 통신 패턴에서도 예측 가능하고 효율적인 데이터 전달을 보장합니다..
인피니밴드 섬유의 이점은 인공지능 프로젝트의 하위 결과로 직접 번역됩니다.다음 표는 대규모 교육 환경에서 관찰 된 전형적인 성능 향상을 보여줍니다.:
| 메트릭 | 전통적인 이더넷 | 멜라녹스 인피니밴드 HDR | 개선 |
|---|---|---|---|
| 모든 감소 지연 (256 노드) | ~850 μs | ~220 μs | ~74% |
| GPU 사용량 (평균) | 40~60% | 85-95% | ~40%+ |
| 훈련 할 시간 (100 시대 모델) | 7일 | ~4.2일 | 40% |
인공지능의 한계를 확대하려는 기업과 연구 기관의 경우 고성능 네트워크에 투자하는 것은 강력한 GPU에 투자하는 것만큼이나 중요합니다.멜라녹스 인피니밴드검증된 확장 가능한 아키텍처를 제공하여 네트워크 병목을 제거하고 GPU 투자를 극대화하며 새로운 AI 모델의 개발 주기를 크게 단축합니다.더 빠른 반복과 더 복잡한 실험을 가능하게 함으로써, 인공지능 혁신 경쟁에서 실질적인 경쟁 우위를 제공합니다.
Mellanox InfiniBand가 어떻게 작동하는지 더 알아보기GPU 네트워크솔루션으로 최적화 할 수 있습니다인공지능 모델 교육인프라, 우리는 인증된 NVIDIA 네트워크 파트너와 상담하는 것이 좋습니다.특정 작업 부하가 달성 할 수있는 성능과 효율성 증가를 모델링하기 위해 개인화된 구조 검토를 요청.

