멜라녹스 (NVIDIA Mellanox) 920-9B210-00FN-0D0 인피니밴드 스위치 생산 중

June 1, 2026

AI 교육 및 HPC 시뮬레이션을 확장하는 기업 및 연구 기관은 GPU 컴퓨팅 주기를 낭비하는 네트워크로 인한 대기 시간 및 정체라는 일반적인 병목 현상에 직면하는 경우가 많습니다. 이 배포 사례 연구에서는 중간 규모의 AI 연구소가 클러스터 성능을 어떻게 혁신했는지 살펴봅니다.멜라녹스(NVIDIA Mellanox) 920-9B210-00FN-0D0InfiniBand 스위치는 까다로운 병렬 워크로드를 위해 결정적이며 지연 시간이 짧은 패브릭을 구현합니다.

배경 및 과제: 이더넷이 병목 현상을 일으키는 경우

연구실의 기존 100Gb 이더넷 패브릭은 전체 축소 작업 중에 지속적으로 꼬리 지연 시간 스파이크를 나타냈고, 이로 인해 대규모 훈련 작업에서 GPU 유휴 시간이 최대 25% 증가했습니다. 기존 스위치에는 RDMA 인식 혼잡 제어 및 네트워크 내 컴퓨팅 기능이 부족했습니다. 설계자는 확장되는 400Gb/s NDR 백본을 위해 마이크로초 미만의 대기 시간, 무손실 전송 및 원활한 확장성을 제공할 수 있는 솔루션이 필요했습니다. 여러 옵션을 평가한 후 팀은 다음을 선택했습니다.920-9B210-00FN-0D0새로운 InfiniBand 패브릭의 핵심 구성 요소로 사용됩니다.

솔루션 및 배포: 지연 시간이 짧은 AI 패브릭 구축

배포는 다음을 중심으로 이루어졌습니다.920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR32개 GPU 서버의 리프-스파인 백본 역할을 하는 스위치입니다. 주요 배포 결정에는 다음이 포함됩니다.

전체 RDMA 지원:NVIDIA의 독점 전송 계층을 사용하여 커널 우회 오버헤드를 제거합니다.
적응형 라우팅:핫스팟을 방지하기 위해 여러 경로에 걸쳐 트래픽을 동적으로 분산합니다.
SHARPv3 네트워크 내 집계:호스트 CPU에서 스위치 데이터 플레인으로 집합적 작업을 오프로드합니다.

엔지니어들은 다음을 참조했습니다.920-9B210-00FN-0D0 데이터시트그리고920-9B210-00FN-0D0 사양기존 ConnectX-7 어댑터와의 호환성을 검증합니다. 그만큼920-9B210-00FN-0D0 호환에코시스템에서는 케이블 변경 없이 이전 스파인 스위치를 즉시 교체할 수 있습니다. 추가적으로,920-9B210-00FN-0D0 InfiniBand 스위치 OPN(부품 번호 주문) 조달 및 RMA 작업 흐름이 단순화되었습니다.

결과 및 이점: HPC 및 AI에 대한 측정 가능한 이점

으로 마이그레이션한 후엔비디아 멜라녹스 920-9B210-00FN-0D0기반 패브릭을 기반으로 한 연구실에서는 30일 평가 기간 동안 다음과 같은 개선 사항을 기록했습니다.

미터법	이전(100GbE)	이후 (920-9B210-00FN-0D0)
평균 전체 감소 지연 시간	12.4μs	2.8μs
GPU 유휴 시간(훈련)	24%	3%
유효 대역폭/포트	67Gb/초	392Gb/초
작업 완료 시간(GPT 유사 모델)	기준선	42% 더 빨라짐

총 소유 비용을 평가하는 IT 관리자의 경우920-9B210-00FN-0D0 가격클러스터 유휴 전력이 40% 감소하고 작업 처리량이 빨라져 상쇄되었습니다. 그만큼920-9B210-00FN-0D0 판매공인 유통업체를 통한 채널은 또한 장기적인 HPC 인프라 계획에 중요한 5년 수명 주기 지원을 제공했습니다.

요약 및 전망: 차세대 AI 클러스터를 위한 청사진

연구실에서는 이제920-9B210-00FN-0D0 InfiniBand 스위치 OPN 솔루션모든 새로운 GPU 확장을 위해. 앞으로 팀에서는 동일한 스위칭 플랫폼을 사용하여 비차단 아키텍처와 혼잡 제어를 활용하여 NDR 포트를 32개에서 256개로 확장할 계획입니다. 대기 시간이 짧은 RDMA 패브릭을 설계하는 설계자의 경우엔비디아 멜라녹스 920-9B210-00FN-0D0소규모 AI 프로토타이핑 클러스터부터 엑사스케일 HPC 배포에 이르기까지 네트워크 예측 불가능성을 제거하는 검증된 프로덕션 지원 기반을 제공합니다.