NVIDIA Mellanox MQM9790-NS2F InfiniBand 스위치 기술 솔루션

April 13, 2026

이 기술 백서(Technical Whitepaper)는 네트워크 아키텍트, 사전 영업 엔지니어 및 운영 리더를 대상으로 합니다. 이 백서는 는 포트별 카운터, 버퍼 점유율 히스토그램 및 혼잡 로그를 제공합니다. 성능 저하의 경우 적응형 라우팅 구성을 확인하고 모든 패브릭 링크가 대칭인지 확인하고 SHARP 집계가 지원되는 집합에 대해 활성화되었는지 확인하십시오. — 400Gb/s NDR InfiniBand 스위치 — 에 중점을 두고 있으며, RDMA/HPC/AI 클러스터의 저지연 상호 연결 최적화를 위한 아키텍처 설계, 핵심 기술, 배포 및 확장, 운영 및 모니터링에 대한 자세한 지침을 제공합니다.

1. 프로젝트 배경 및 요구 사항 분석

최신 AI 학습 및 HPC 워크로드는 클러스터를 수천에서 수만 개의 GPU로 확장하고 있습니다. 이러한 환경에서 네트워크 상호 연결은 주요 병목 현상이 되었습니다. 기존 이더넷 패브릭은 지연 시간 및 CPU 오버헤드에 어려움을 겪는 반면, 레거시 InfiniBand 배포는 포트 밀도 및 대역폭이 부족할 수 있습니다. 주요 요구 사항에는 마이크로초 미만의 스위칭 지연 시간, 패킷 손실 없는 전체 라인 속도 전달, 효율적인 RDMA 지원 및 수백 개의 스위치로의 원활한 확장성이 포함됩니다. NVIDIA Mellanox MQM9790-NS2F는 NDR 400Gb/s 기능과 고급 인네트워크 컴퓨팅 기능을 통해 이러한 요구 사항을 직접적으로 충족합니다.

2. 전체 네트워크 및 시스템 아키텍처 설계

권장 아키텍처는 이중 계층 Fat-Tree(폴디드 Clos라고도 함) 토폴로지를 채택하여 이등분 대역폭, 비용 및 확장성을 균형 있게 맞춥니다. 리프 계층에서는 ConnectX-7 NDR 어댑터가 장착된 GPU 서버가 리프 스위치에 연결됩니다. 스파인 계층에서는 MQM9790-NS2F InfiniBand 스위치 장치가 리프 간의 비차단 연결을 제공합니다. 이 설계는 완전한 이등분 대역폭을 보장합니다. 즉, 모든 리프 스위치는 와이어 속도로 다른 모든 리프와 통신할 수 있습니다. 대규모 클러스터의 경우 삼중 계층 토폴로지(리프-스파인-슈퍼 스파인)를 배포하여 수만 개의 GPU 노드를 지원할 수 있습니다.

리프 스위치: 64포트 OSFP 모델로, 각 모델은 32개의 서버(듀얼 포트) 및 스파인으로의 업링크에 연결됩니다.
스파인 계층: MQM9790-NS2F 400Gb/s NDR 64포트 OSFP 스위치로, 각 포트는 리프의 업링크 역할을 합니다. 완전 비차단 설계를 위해서는 스파인 포트 수가 리프 스위치 수와 같아야 합니다.
서브넷 관리: 전용 또는 이중화된 서브넷 관리자가 경로 계산, 적응형 라우팅 및 장애 조치를 처리합니다.

3. 솔루션에서 NVIDIA Mellanox MQM9790-NS2F의 역할 및 주요 기능

핵심 스파인 및 선택적으로 리프 장치로서 는 포트별 카운터, 버퍼 점유율 히스토그램 및 혼잡 로그를 제공합니다. 성능 저하의 경우 적응형 라우팅 구성을 확인하고 모든 패브릭 링크가 대칭인지 확인하고 SHARP 집계가 지원되는 집합에 대해 활성화되었는지 확인하십시오.는 다음과 같은 몇 가지 중요한 기능을 제공합니다:

400Gb/s NDR 라인 속도 성능: 64개의 OSFP 포트 각각은 전이중 400Gb/s로 작동하여 총 51.2Tb/s의 스위칭 용량을 제공합니다.
초저지연 및 적응형 라우팅: 컷스루 스위칭은 포트 간 지연 시간을 130ns 미만으로 유지합니다. 적응형 라우팅은 여러 경로에 걸쳐 트래픽을 동적으로 균형 있게 분산하여 핫스팟을 방지합니다.
인네트워크 컴퓨팅(SHARPv3): 확장 가능한 계층적 집계 및 축소를 지원하여 CPU/GPU에서 집합 연산을 오프로드하고 데이터 이동을 최대 10배까지 줄입니다.
RDMA 네이티브 설계: 하드웨어 가속 RDMA는 CPU 개입을 제거하고 통신 오버헤드를 크게 줄여 직접 GPU 메모리 액세스를 가능하게 합니다.
포괄적인 텔레메트리 및 QoS: 세분화된 혼잡 제어, 버퍼 모니터링 및 흐름 분류는 혼합 워크로드에 대한 결정론적 성능을 보장합니다.

MQM9790-NS2F 데이터시트 및 가용성을 얻으려면 공인 NVIDIA 파트너에게 문의하십시오.4. 배포 및 확장 권장 사항(일반적인 토폴로지 포함)

일반적인 2,048-GPU 클러스터는 64개의 리프 스위치와 32개의 스파인 스위치를 사용하여 구축할 수 있습니다. 각 리프는 32개의 GPU 서버(듀얼 포트)에 연결되고 스파인으로 32개의 업링크를 제공합니다. 스파인 계층은

MQM9790-NS2F 호환 장치로 구성되며 NDR 광학 또는 DAC 케이블을 실행합니다. 8,192개의 GPU로 확장하기 위해 여러 포드를 상호 연결하는 슈퍼 스파인 계층이 추가됩니다.확장 시 다음 사항을 고려하십시오:

케이블링 및 광학 장치:

짧은 랙 내 링크에는 OSFP-to-OSFP DAC를 사용하고, 더 긴 거리를 위해서는 OSFP-to-4xOSFP 브레이크아웃 케이블 또는 광 모듈을 사용하십시오. 도달 거리 및 전력 예산과 관련하여 MQM9790-NS2F 사양과의 호환성을 확인하십시오.서브넷 크기:
단일 서브넷 관리자는 최대 2,000개의 노드를 처리할 수 있습니다. 그 이상은 여러 서브넷을 배포하거나 분산 서브넷 관리자 설계를 사용하십시오.이중화:
이중 홈 서버 및 이중화된 스파인 스위치는 단일 실패 지점을 제거합니다. MQM9790-NS2F InfiniBand 스위치 솔루션 및 호환성 가이드를 참조하십시오. 맞춤형 설계에 대해 논의하거나 5. 운영, 모니터링, 문제 해결 및 최적화

효과적인 운영에는 가시성과 자동화가 필요합니다. 다음 관행을 권장합니다:

모니터링:

NVIDIA의 Fabric Manager 및 텔레메트리 API를 사용하여 포트 오류, 온도, 전력 소비 및 링크 사용률을 추적하십시오. CRC 오류 또는 심볼 오류가 임계값을 초과하는 경우 경고를 설정하십시오.문제 해결:
MQM9790-NS2F는 포트별 카운터, 버퍼 점유율 히스토그램 및 혼잡 로그를 제공합니다. 성능 저하의 경우 적응형 라우팅 구성을 확인하고 모든 패브릭 링크가 대칭인지 확인하고 SHARP 집계가 지원되는 집합에 대해 활성화되었는지 확인하십시오.최적화:
워크로드(예: 지연 시간 민감 또는 처리량 민감)에 따라 적응형 라우팅 매개변수를 조정하십시오. 대규모 AI 모델의 경우 혼잡 제어를 활성화하고 PFC 데드락을 방지하기 위해 버퍼 제한을 설정하십시오. 용량 추가 계획 시 MQM9790-NS2F 가격MQM9790-NS2F 판매

를 평가하는 조직의 경우 소프트웨어 스택(예: NCCL, OpenMPI)이 SHARPv3 및 하드웨어 기반 축소와 같은 NDR 기능을 지원하는지 확인하십시오.6. 요약 및 가치 평가MQM9790-NS2F InfiniBand 스위치 솔루션

은 까다로운 RDMA/HPC/AI 클러스터에 대한 저지연, 고대역폭 패브릭을 구축하는 명확한 경로를 제공합니다. 64포트 400Gb/s 밀도, 마이크로초 미만 스위칭 및 인네트워크 컴퓨팅 기능은 최신 워크로드의 확장성 및 성능 문제를 직접적으로 해결합니다. 위에 설명된 아키텍처(Fat-Tree 토폴로지, NDR 코어 스위치 및 RDMA 네이티브 작동)를 채택함으로써 조직은 선형 GPU 확장을 달성하고 작업 완료 시간을 30% 이상 단축하며 패브릭 관리를 단순화할 수 있습니다. 자세한 계획은 공식

MQM9790-NS2F 데이터시트 및 호환성 가이드를 참조하십시오. 맞춤형 설계에 대해 논의하거나 MQM9790-NS2F 가격 및 가용성을 얻으려면 공인 NVIDIA 파트너에게 문의하십시오.