Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 InfiniBand 스위치 기술 솔루션

April 15, 2026

1프로젝트 배경 및 요구사항 분석

현대 인공지능 훈련 클러스터와 고성능 컴퓨팅 (HPC) 환경은 확장 문제를 직면합니다. GPU 수와 컴퓨팅 밀도가 증가함에 따라전통적인 이더넷 패브릭스는 TCP/IP 오버헤드 때문에 주요 병목이 됩니다.RDMA (Remote Direct Memory Access) 에 의존하는 워크로드의 경우, 마이크로초 수준 지터도 효과적인 GPU 활용도를 30-40% 감소시킬 수 있습니다.멜라녹스 (NVIDIA 멜라녹스) 920-9B210-00FN-0D0인피니밴드 스위치는 집단 작전, 모든 감소 알고리즘 및 고주파 MPI 통신에 최적화된 손실 없는 결정적 조직을 제공함으로써 이러한 과제를 직접 해결합니다.

차세대 AI/HPC 네트워크의 주요 요구 사항은: 미세초 이하의 스위칭 지연, 400Gb/s NDR 속도를 지원, 하드웨어 기반의 네트워크 컴퓨팅 (SHARP v2),기존 HDR 인프라와 원활한 후속 호환성.920-9B210-00FN-0D0이 모든 기준을 충족시키면서 기업 수준의 관리성과 텔레메트리를 제공합니다.

2전체 네트워크 및 시스템 아키텍처 설계

권장된 아키텍처는 두 층의 지방 나무 (spine-leaf) 토폴로지 중심입니다.분산 트레이닝에서 전형적인 모든-모든 통신 패턴에 대한 전체 バイ섹션 대역폭과 결정적 지연을 제공하는척추층은NVIDIA 멜라노크스 920-9B210-00FN-0D0스위치, 각각은 NDR 직물 척추로 작동합니다. 잎 스위치 (예를 들어, QM9700 시리즈) 는 ConnectX-7 또는 BlueField-3 어댑터를 통해 컴퓨팅 노드에 연결됩니다.척추로 올라가는 연결은 400Gb/s NDR 속도로 실행됩니다..

2,000 GPU를 초과하는 대용량 배포에 대해, 3단계 아키텍처 (core-aggregation-access) 를 구현할 수 있으며,920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR이 디자인은 선형 성능 확장을 보장하고 포크리프트 업그레이드가 필요하지 않고 향후 NDR200 (800Gb/s) 에 대한 확장을 지원합니다.공무원920-9B210-00FN-0D0 InfiniBand 스위치 OPN멀티 사이트 조달을 단순화하고 전체 조직에서 펌웨어 일관성을 보장합니다.

3솔루션에서 920-9B210-00FN-0D0의 역할과 주요 특징

의920-9B210-00FN-0D0인피니밴드 조직 내의 고성능 척추/핵 요소로 기능합니다. 주요 기능에는 다음이 포함됩니다.

400Gb/s NDR 포트 밀도:각각920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR스위치는 최대 32개의 400Gb/s 포트를 제공하며, 500m까지의 유연한 케이블링을 위한 구리 및 광적 트랜시버를 모두 지원합니다.
네트워크 컴퓨팅 (SHARP v2):하드웨어가 가속화된 모든 감소 작업은 인공지능 교육 작업에 대한 집단 통신 시간을 최대 8배까지 줄여 GPU 활용도를 직접적으로 향상시킵니다.
어댑티브 라우팅 & 혼잡 제어:동적 경로 선택은 핫스팟 형성을 피하고 인캐스트 트래픽 패턴에서 결정적 지연을 보장합니다.
컨버전드 이더넷 (RoCE) 이상 RDMA 대안:RoCE와 달리920-9B210-00FN-0D0PFC 구성이 필요없고 95%의 링크 사용량에서도 일관된 성능을 제공합니다.

엔지니어들은920-9B210-00FN-0D0 데이터 시트그리고920-9B210-00FN-0D0 사양자세한 전력 (일반적으로 350W), 열 및 대기 시간 수치 (200ns 이하의 스위칭 지연) 를 위해 스위치는 완전히920-9B210-00FN-0D0 호환모든 주요 NVIDIA InfiniBand 엔드포인트와 제3자 NDR 광학으로

4배포 및 확장 권고 (토폴로지 예제)

소 클러스터 (128-256 GPU):2x의 단일 척추920-9B210-00FN-0D08-16개의 잎 스위치로 연결되는 스위치로중간 클러스터 (512-1024 GPU):4개의 스핀 스위치로 구성되어 있으며, 각 잎 스위치에는 4개의 업링크 (스핀마다 2개) 가 있다. 이 토폴로지는 단일 링크가 피크 트래픽 하에서 80%의 이용률을 초과하지 못하도록 보장한다.큰 클러스터 (2048+ GPU):8x의 핵층NVIDIA 멜라노크스 920-9B210-00FN-0D0스위치, 동일한 모델을 사용하는 집계 계층, QM9700 시리즈와 액세스 계층 모두 400Gb/s NDR에서 상호 연결, 선택적 NDR200 준비.

비용을 평가하는 조직의 경우,920-9B210-00FN-0D0 가격소유의 총 비용 (TCO) 을 고려할 때 고급 이더넷 스위치에 비해 경쟁력있게 배치됩니다.920-9B210-00FN-0D0 판매NVIDIA의 승인된 유통 네트워크를 통해, 4-6주간의 전형적인 납품 기간을 통해.

5. 운영, 모니터링, 문제 해결 및 최적화

관리는 NVIDIA 유니파이드 팩브릭 매니저 (UFM) 를 통해 중앙 집중화되어 실시간 텔레메트리, 예측 장애 분석 및 자동화 복구 기능을 제공합니다.920-9B210-00FN-0D0 InfiniBand 스위치 OPN 솔루션다음을 포함합니다.

성능 기준:UFM의 지연 열지도를 사용하여 미시 폭발을 식별합니다.920-9B210-00FN-0D0 사양ECN 마크와 버퍼 점유율에 대한 하드웨어 카운터 확인.
펌웨어 관리:NDR 펌웨어와 같은 부문을 유지하십시오.920-9B210-00FN-0D0 데이터 시트ConnectX-7 및 BlueField-3에 대한 호환성 행렬을 포함합니다.
오류 시나리오:불필요한 전원 공급 장치와 팬 모듈은 N + 1 과잉을 허용합니다. UFM는 실패한 링크 또는 스위치 주위에 자동으로 트래픽을 리로드 할 수 있습니다.
최적화 팁:모든 척추 포트에서 적응 라우팅을 활성화; 글로벌 일시 중지 프레임을 비활성화; 모든 감소 집중 작업에 SHARP를 구성;920-9B210-00FN-0D0 InfiniBand 스위치 OPN물리 포트를 논리적 역할로 매핑하는 식별자

6요약 & 가치 평가

의멜라녹스 (NVIDIA 멜라녹스) 920-9B210-00FN-0D0고성능 인공지능 및 HPC 패브릭의 기본 빌딩 블록을 나타냅니다. 400Gb/s NDR 대역폭, 미세초 이하의 스위칭 지연, 그리고 SHARP v2 네트워크 컴퓨팅을 제공함으로써,일반적으로 GPU 확장을 제한하는 네트워크 병목을 제거.920-9B210-00FN-0D0단순히 전환이 아니라920-9B210-00FN-0D0 InfiniBand 스위치 OPN 솔루션이는 기존 HDR 인프라와 완전한 호환성, UFM를 통해 기업 수준의 관리성, 그리고 미래의 NDR200 속도에 대한 명확한 마이그레이션 경로를 포함합니다.RDMA/HPC/AI 클러스터 상호 연결 성능을 최적화하려는 네트워크 아키텍트 및 IT 관리자, 이 스위치는 GPU 사용량이 높고 작업 완료 시간이 짧고 운영 비용도 낮아짐에 따라 측정 가능한 ROI를 제공합니다.

주요 사양 참조

매개 변수	가치
모델	NVIDIA 멜라노크스 920-9B210-00FN-0D0
데이터 비율	400Gb/s NDR (포트당)
기본 OPN	920-9B210-00FN-0D0 InfiniBand 스위치 OPN
전체 구성	920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR
잠정 전환	<200ns
전력 소비	~350W (기반)