멜라녹스 (NVIDIA) 920-9B110-00FH-0D0 인피니밴드 스위치 기술 솔루션
January 5, 2026
1프로젝트 배경 및 요구사항 분석
인공지능 훈련과 HPC 워크로드를 위해 현대적인 가속 컴퓨팅 클러스터를 배포하고 확장하는 것은 독특한 네트워크 과제를 제시합니다.전통적인 TCP/IP 기반 네트워크는 상당한 지연시간과 CPU 오버헤드를 도입합니다.다음 세대의 인터 커넥트 솔루션의 주요 요구 사항은 GPU 정지 방지를 위해 결정적 미크로초 이하의 지연 시간,모든 통신 패턴을 위한 높은 분단 대역폭, 확장 가능한 네트워크 내 컴퓨팅을 통해 집단 작업을 완화하고, 운영의 단순화를 위해 강력한 조직 관리를 제공합니다.
TheNVIDIA 멜라녹스 920-9B110-00FH-0D0이러한 정확한 요구 사항을 충족하도록 설계되어 성능이 뛰어나고 효율적인920-9B110-00FH-0D0 InfiniBand 스위치 OPN 솔루션이 문서에서는 이 기기 배치에 대한 포괄적인 기술 청사진을 제시합니다.
2전체 네트워크/시스템 아키텍처 설계
제안된 아키텍처는 척추 잎, 차단하지 않는 지방 나무 토폴로지이며 예측 가능한, 대역폭 HPC 및 AI 클러스터를 구축하는 데 실질적인 표준입니다.이 디자인은 어떤 두 노드 사이의 일관된 홉 카운트 및 지연을 보장, 과잉 구독 및 핫스팟을 제거합니다. 아키텍처는 전체 스택, NVIDIA 최적화된 생태계에 구축되었습니다.
- 계산 계층:NVIDIA DGX 또는 HGX 시스템 또는 NVIDIA ConnectX-7 NIC를 탑재한 동등한 GPU 서버.
- 연결 계층:원형의 직물920-9B110-00FH-0D0잎 (Top-of-Rack) 과 척추 스위치로 동시에 작동하는 스위치.
- 관리 및 오케스트레이션 계층:NVIDIA UFM®는 NVIDIA Magnum IO 스택을 통해 Slurm 또는 Kubernetes와 같은 클러스터 스케줄러와 통합되어 있습니다.
이 엔드-투-엔드 아키텍처는 RDMA와 GPUDirect 통신에 최적의 성능을 보장하며 통합된 "컴퓨터 자원으로서의 섬유"를 만듭니다.
3920-9B110-00FH-0D0의 역할 및 주요 기술 특성
이 건축물 안에서,920-9B110-00FH-0D0기본 데이터 평면 단위 역할을 합니다. 그것의 역할은 단순한 패킷 전달을 넘어 활성 컴퓨팅 요소가 됩니다.
주요 기술 기둥:
- 초저연속과 높은 대역폭:가동력920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDRASIC는 산업 선도적인 포트-투-포트 지연 속도와 포트 대역폭당 전체 유선 속도 200Gb/s를 제공합니다. 이는 RDMA 트래픽에 매우 중요합니다.
- 네트워크 컴퓨팅 (SHARP):스위치 하드웨어는 네트워크 내에서 데이터 집합을 수행함으로써 MPI 및 NCCL 집단 운영 (All-Reduce, Broadcast) 을 가속화합니다. 이것은 GPU 비활성 시간 및 CPU 오버헤드를 크게 줄입니다.
- 고급 혼잡 제어:어댑티브 라우팅 및 타이밍 혼잡 제어 메커니즘은 교통 흐름을 동적으로 관리합니다.인공지능 교육에서 흔히 볼 수 있는 인스캐스트 시나리오를 통해 패킷 낙하를 방지하고 공정한 대역폭 분배를 보장합니다..
- 텔레메트리 및 시력:NVIDIA의 텔레메트리 인프라에 대한 통합 지원은 성능 조정에 필수적인 트래픽 패턴, 버퍼 점유 및 링크 건강에 대한 깊은 통찰력을 제공합니다.
엔지니어들은 공무원들과 상담해야 합니다.920-9B110-00FH-0D0 데이터 시트자세한 경우920-9B110-00FH-0D0 사양전력, 냉각, 포트 구성에 대한
4배포 및 확장 권고
배치가 시작되는 것은920-9B110-00FH-0D0 호환컴포넌트 목록. 전형적인 스케일링 유닛은 차단되지 않는 지방 나무로 구성된 "포드"입니다.
예제: 512-GPU 클러스터 팟
- 잎층:배포920-9B110-00FH-0D0토프 오브 랙 (ToR) 스위치로 각각 최대 16개의 GPU 서버 (예를 들어 8x DGX A100 시스템) 를 연결한다.
- 척추 층:두 번째 층은920-9B110-00FH-0D0스위치는 모든 잎 스위치를 서로 연결하여 전체 부면역 광역폭을 제공합니다.
- 케이블:모든 200Gb/s 스위치 및 서버 연결에 QSFP56 HDR 케이블 (시동 또는 활성) 을 사용한다.
포드 너머로 확장:복수의 포드는 전용 척추의 스위치를 사용하여 또는 지방 나무 계층을 확장하여920-9B110-00FH-0D0.920-9B110-00FH-0D0 InfiniBand 스위치 OPN확장 과정에서 부분 상호 운용성을 위한 명확한 로드맵을 제공합니다.
5. 운영, 모니터링, 문제 해결 및 최적화
능동적 인 관리는 최고 조직 성능을 유지하기 위해 중요합니다. NVIDIA UFM®는 권장 중앙 관리 플랫폼입니다.
| 운영 영역 | 도구/기능 | 이점 |
|---|---|---|
| 직물 공급 및 모니터링 | UFM® 장치 관리자 및 텔레미터 | 무접촉 프로비저닝, 실시간 건강 대시보드, 그리고 성능 측정 수집 |
| 문제 해결 및 근본 원인 분석 | UFM® 이벤트 분석기 및 케이블 진단 | 인공지능에 의한 이상 감지, 상세한 이벤트 로그, 원격 케이블 테스트 |
| 성능 최적화 | UFM® 퍼포먼스 어드바이저 & SHARP 분석 | 혼잡 지점을 식별하고, 라우팅을 최적화하고, 네트워크 내 컴퓨팅 효율성을 모니터링합니다. |
정기적으로 펌웨어 업데이트를 하고 스위치 문서에 설명된 최적의 실천을 준수하는 것이 필수적입니다.진단 흐름은 UFM® 텔레메트리로 시작해야 합니다., 케이블 무결성을 확인하고 SHARP 및 혼잡 제어 설정을 확인합니다.
6결론 및 가치 평가
클러스터 상호 연결을 구현하기멜라녹스 (NVIDIA) 920-9B110-00FH-0D0RDMA, HPC 및 AI 워크로드에 대한 미래 유연하고 고성능 기반을 제공합니다. 그것의 가치 제안은 다각적입니다: 통신 오버헤드를 최소화함으로써 GPU 활용 및 ROI를 극대화합니다.,확장 가능한 클러스터 성장을 가능케 하고 통합 관리와 텔레메트리를 통해 운영을 단순화합니다.
그 동안920-9B110-00FH-0D0 가격프리미엄 투자입니다. 전체 소유비용 (TCO) 은 작업 완료 시간, 연구자의 생산성 향상을 고려하면 유리한 것입니다.그리고 효율적인 스케일링으로 값비싼 재설계를 피할 수 있습니다.평가하는 조직920-9B110-00FH-0D0 판매이 기술 솔루션은 가속 컴퓨팅 인프라의 모든 잠재력을 누릴 수 있는 청사진을 제공합니다.

