Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 인피니밴드 스위치 애플리케이션 실습

January 6, 2026

에 대한 최신 회사 뉴스 Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 인피니밴드 스위치 애플리케이션 실습

배경 및 과제: 최신 컴퓨팅의 네트워크 병목 현상

과학적 발견과 AI 혁신을 위한 경쟁에서, 한 선도적인 연구 기관의 컴퓨팅 능력은 순수한 처리 능력 부족이 아니라 네트워크 패브릭에 의해 저해되고 있었습니다. 기존의 HDR InfiniBand 인프라는 성능은 좋았지만, 새로 구축된 NVIDIA DGX 클러스터와 기존 HPC 워크로드의 대규모 동기화 통신 요구 사항을 따라가는 데 어려움을 겪고 있었습니다. 연구자들은 작업 완료 시간에 상당한 지연을 겪었고, 모든 대 모든 통신 패턴에서 네트워크 대기 시간과 혼잡이 주요 병목 현상이 되었습니다.

과제는 두 가지였습니다. 첫째, MPI 기반 HPC 시뮬레이션에 중요한 RDMA(Remote Direct Memory Access) 작업의 대기 시간을 획기적으로 줄이는 것이었습니다. 둘째, 수백 개의 GPU에서 지속적인 매개변수 동기화가 필요한 AI 훈련 작업에 원활하고 비차단 패브릭을 제공하는 것이었습니다. 이 기관은 기존 생태계와 완벽하게 호환되면서 완전한 개편 없이 비용 효율적인 업그레이드 경로를 보장하면서 NDR 400Gb/s 속도를 처리할 수 있는 미래 지향적인 솔루션이 필요했습니다.

솔루션 및 배포: 920-9B210-00FN-0D0 패브릭 구현

철저한 평가 후, 이 기관은 새로운 고성능 패브릭의 핵심으로 NVIDIA Mellanox 920-9B210-00FN-0D0을 선택했습니다. 이 솔루션은 모든 컴퓨팅 및 스토리지 노드를 연결하는 고대역폭, 저지연 스파인 계층을 형성하기 위해 여러 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR 스위치를 배포하는 데 중점을 두었습니다.

배포는 양방향 대역폭을 최대화하고 홉 수를 최소화하기 위해 하이브리드 2계층 팻 트리 토폴로지로 구성되었습니다. 구현의 주요 측면은 다음과 같습니다.

  • 패브릭 코어: 920-9B210-00FN-0D0 스위치로 완전히 구축된 스파인 계층으로, NDR 400Gb/s 백본을 제공합니다.
  • 원활한 통합: 스위치의 하위 호환성을 활용하여 기존 HDR 리프 스위치와 NIC를 연결하여 이전 투자를 보호하는 동시에 NDR로의 점진적인 노드 업그레이드를 허용했습니다.
  • 고급 관리: 새로운 920-9B210-00FN-0D0 InfiniBand 스위치 OPN 장치를 포함한 전체 패브릭은 NVIDIA UFM®을 사용하여 단일 창에서 관리되어 정확한 성능 원격 측정, 자동화된 패브릭 프로비저닝 및 신속한 오류 격리를 가능하게 했습니다.
  • 유효성 검사: IT 팀은 공식 920-9B210-00FN-0D0 데이터시트사양을 면밀히 참조하여 데이터 센터의 케이블 도달 범위, 전력 및 냉각 요구 사항을 검증하여 최적의 성능을 보장했습니다.

이 아키텍처는 기관의 기존 HPC 및 새로운 AI 워크로드를 단일의 강력한 네트워크에서 제공하는 통합 920-9B210-00FN-0D0 InfiniBand 스위치 OPN 솔루션을 구축했습니다.

효과 및 이점: 성능 및 효율성의 정량적 이득

920-9B210-00FN-0D0 배포의 영향은 운영의 여러 측면에서 즉시 측정 가능하고 혁신적이었습니다.

측정 항목 배포 전 920-9B210-00FN-0D0 배포 후
평균 MPI 대기 시간(왕복) ~0.7 마이크로초 ~0.5 마이크로초
AI 훈련 작업 완료 시간(대형 모델) 5.2일 3.8일 (27% 감소)
피크 시 모든 대 모든 시 패브릭 사용률 85%를 초과하여 혼잡 발생 NDR 속도에서 60% 미만으로 안정적
관리 작업(패브릭 재구성) 수동, 시간 집약적 프로세스 UFM® 통합을 통해 자동화

가장 중요한 이점은 애플리케이션 런타임의 극적인 감소였습니다. 특히 복잡한 유체 역학을 포함하는 HPC 시뮬레이션은 더 낮고 일관된 MPI 대기 시간으로 인해 20-30% 향상을 보였습니다. AI 팀의 경우, 새로운 패브릭을 통한 RDMA의 거의 이론적인 성능은 GPU 리소스가 네트워크 전송을 기다리는 것이 아니라 계산으로 완전히 포화되었음을 의미했습니다. 전체 920-9B210-00FN-0D0 가격을 평가하는 것은 조달의 일부였지만, 그 결과 연구 결과의 가속화는 초기 자본 지출을 훨씬 능가하는 설득력 있는 ROI를 제공했습니다.

결론 및 전망: 미래 지향적 인프라를 위한 청사진

이 연구 환경에서 NVIDIA Mellanox 920-9B210-00FN-0D0의 성공적인 적용은 유사한 상호 연결 문제를 겪고 있는 모든 조직에 강력한 청사진 역할을 합니다. 이는 최첨단 네트워크 패브릭에 투자하는 것이 부수적인 비용이 아니라 컴퓨팅 투자를 위한 전략적 승수임을 보여줍니다.

이 기관의 배포는 920-9B210-00FN-0D0가 단순한 스위치 이상임을 증명합니다. 이는 융합을 위한 활성화 플랫폼입니다. RDMA 기반 HPC 및 AI 워크로드를 단일의 초고속 네트워크에서 원활하게 통합하여 운영을 단순화하고 발견을 가속화합니다. 이 기술이 더 널리 판매될수록 고성능 클러스터링에서 가능한 새로운 표준을 설정합니다.

앞으로, NDR 400Gb/s 패브릭의 고유한 확장성과 성능 헤드룸은 이 기관이 미래에 더욱 강력한 컴퓨팅 리소스를 통합할 수 있는 좋은 위치에 있음을 의미합니다. 920-9B210-00FN-0D0은 네트워크를 병목 현상으로 효과적으로 제거하여 연구자들이 알고리즘과 상상력의 한계에만 집중할 수 있도록 했습니다.