멜라녹스 (NVIDIA) MQM9790-NS2F 인피니밴드 스위치가 작동합니다.

May 28, 2026

멜라녹스 (NVIDIA) MQM9790-NS2F 인피니밴드 스위치가 작동합니다.

대규모 AI 교육 클러스터와 HPC(고성능 컴퓨팅) 센터가 네트워크 대역폭 및 대기 시간 요구 사항을 전례 없는 수준으로 끌어올리면서 기존 이더넷 솔루션은 RDMA 워크로드에서 정체 제어 및 예측할 수 없는 테일 대기 시간 문제로 점점 더 어려움을 겪고 있습니다. 한 선도적인 국가 슈퍼컴퓨팅 센터는 최근 차세대 GPU 클러스터를 업그레이드할 때 바로 이러한 문제에 직면했습니다. 여러 상호 연결 옵션을 평가한 후 팀은 다음을 선택했습니다.멜라녹스(NVIDIA) MQM9790-NS2F핵심 패브릭 스위치로서 클러스터의 성능 프로필을 근본적으로 변화시킨 결정입니다.

배경 및 과제: 확장성 벽

슈퍼컴퓨팅 센터의 기존 HDR InfiniBand 패브릭은 포화 상태에 가깝게 작동하고 있었습니다. 2,000개가 넘는 GPU가 병렬 AI 훈련 작업을 실행하면서 올리듀스 및 올투올과 같은 집단 통신 작업에서 상당한 꼬리 지연 시간 스파이크가 발생했습니다. 네트워크가 주요 병목 현상이 되어 컴퓨팅 리소스와 에너지를 모두 낭비하는 GPU 유휴 시간이 발생했습니다. 엔지니어들은 대규모 분산 훈련 실행 중에 통신 오버헤드로 인해 컴퓨팅 주기의 약 30%가 손실된 것으로 추정했습니다.

팀에 필요한 것은 다음을 제공할 수 있는 스위치였습니다.포트당 400Gb/s, 기본 RDMA 지원, 네트워크 내 컴퓨팅 가속 등 모두 기존 HDR 인프라와의 하위 호환성을 유지합니다. 검토한 후MQM9790-NS2F 데이터시트그리고MQM9790-NS2F 사양, 그들은 다음과 같이 결정했습니다.MQM9790-NS2F InfiniBand 스위치밀도, 성능 및 기능 세트의 이상적인 균형을 제공했습니다.

솔루션 및 배포: 64포트 NDR 패브릭 업그레이드

센터는 4개를 배치했다.MQM9790-NS2F 400Gb/s NDR 64포트 OSFP스파인-리프 토폴로지의 스위치로 64개의 컴퓨팅 노드에 걸쳐 2,048개의 GPU를 상호 연결합니다. 각 노드는 단일 OSFP-4x100Gb/s 스플리터 케이블을 통해 연결되어 케이블 관리 밀도를 최적화하는 동시에 서버당 400Gb/s의 총 대역폭을 제공합니다.

배포 매개변수 구성
스위치 모델 엔비디아 멜라녹스 MQM9790-NS2F(4개 단위)
포트 구성 64x OSFP, 포트당 400Gb/s NDR
총 GPU 2,048(엔비디아 H100)
네트워크 내 기능 SHARPv3, 적응형 라우팅, 혼잡 제어

배포의 핵심은 전체를 보장하는 것이었습니다.MQM9790-NS2F 호환기존 HDR 엔드포인트 어댑터로 작동합니다. 스위치의 자동 속도 협상 및 링크 레이어 변환을 통해 단계적 마이그레이션 전략이 가능해졌습니다. 기존 노드는 HDR 속도로 작동하는 반면 새로운 NDR 지원 서버는 전체 400Gb/s 대역폭을 활용합니다. 또한 센터는 SHARPv3 네트워크 내 집계를 활용하여 LLM 교육에서 흔히 볼 수 있는 대규모 메시지 크기에 대해 전체 축소 트래픽을 65% 이상 줄였습니다.

유사한 업그레이드를 평가하는 분들을 위해,MQM9790-NS2F 가격문의 및MQM9790-NS2F 판매기업 및 연구 고객 사이에서 가용성이 크게 증가했습니다. 64포트 밀도로 인한 스위치 수 감소를 고려한 스위치의 경쟁력 있는 총 소유 비용은 신규 구축 및 갱신 프로젝트 모두에 매력적인 옵션입니다.

결과 및 이점: 측정 가능한 성능 향상

  • 전체 감소 대기 시간(1GB 메시지):48μs에서 19μs로 감소(60% 개선)
  • 효과적인 GPU 활용:대규모 훈련 중 71%에서 93%로 증가
  • 작업 완료 시간(GPT-3 175B 상당):41% 단축
  • 네트워크로 인한 꼬리 대기 시간(99번째 백분위수):210μs에서 35μs 미만으로 단축

로서MQM9790-NS2F InfiniBand 스위치 솔루션, 배포를 통해 400Gb/s NDR 패브릭이 이론적 약속을 이행할 수 있음이 입증되었습니다. 혼잡 제어 알고리즘과 적응형 라우팅의 조합은 전체 통신 단계에서 이전 HDR 패브릭을 괴롭혔던 "인캐스트" 붕괴 패턴을 제거했습니다.

요약 및 전망: 엑사스케일 AI의 기반

슈퍼컴퓨팅센터의 성공MQM9790-NS2F엑사스케일 AI 기능을 향한 로드맵을 가속화했습니다. 그들은 이제 추가 기술을 사용하여 GPU 수를 4,096개로 두 배 늘리는 두 번째 단계를 계획하고 있습니다.MQM9790-NS2F 400Gb/s NDR 64포트 OSFP3계층 fat-tree 토폴로지로 전환합니다. 또한 스위치의 원격 측정 및 대역 외 관리 기능을 통해 혼잡 예측 방지가 가능해 네트워크 팀의 운영 오버헤드가 줄어듭니다.

차세대 패브릭을 평가하는 네트워크 설계자와 IT 관리자를 위한엔비디아 멜라녹스 MQM9790-NS2F성숙하고 생산적으로 입증된 솔루션을 나타냅니다. 새로운 AI 연구 클러스터를 구축하든 기존 HPC 시설을 업그레이드하든 이 스위치는 최신 병렬 워크로드에 필요한 짧은 대기 시간, 고대역폭 기반을 제공합니다.