NVIDIA Mellanox MCX653105A-HDAT 서버 어댑터 기술 솔루션: 최대 서버를 위한 RDMA/RoCE 낮은 지연 전송

March 16, 2026

NVIDIA Mellanox MCX653105A-HDAT 서버 어댑터 기술 솔루션: 최대 서버를 위한 RDMA/RoCE 낮은 지연 전송
1프로젝트 배경 및 요구사항 분석

현대 데이터 센터는 엄청난 데이터 세트에서 더 빠른 통찰력을 제공해야 한다는 압력이 있습니다.또는 고주파 거래 플랫폼, 기본 네트워크 인프라가 종종 주요 성능 병목이됩니다.전통적인 TCP/IP 기반 네트워크는 커널 처리 및 데이터 복사로 인해 상당한 CPU 오버헤드를 부과합니다.CPU 코어 카운트가 확장되고 NVMe 스토리지가 보편화됨에 따라 네트워크는 직접,호스트 프로세서에 세금을 부과하지 않고 고속 데이터 이동.

요구 사항은 분명합니다. 아키텍트들은 OS 커널을 우회하기 위해 원격 직접 메모리 액세스 (RDMA) 를 지원하는 네트워크 솔루션이 필요합니다.서버 메모리와 저장장치 또는 다른 서버 사이의 직접 데이터 전송을 가능하게 하는컨버지드 이더넷 (RoCE) 상의 RDMA는 표준 이더넷 인프라에서 InfiniBand 클래스 지연을 제공하는 선도 표준으로 부상했습니다.迈络思 (NVIDIA Mellanox) MCX653105A-HDAT서버 어댑터는 이러한 요구사항을 충족시키기 위해 특별히 제작되어 있으며, 고성능의 하드웨어 기반을 제공합니다.서버 처리량을 극대화하고 애플리케이션 지연 시간을 최소화하는 손실 없는 RoCE 직물.

2전체 네트워크 및 시스템 아키텍처 설계

제안된 아키텍처는 RoCEv2 트래픽을 지원하기 위해 설계된 비 차단, 척추 잎 이더넷 조직에 초점을 맞추고 있습니다.이 토폴로지는 예측 가능한 낮은 지연시간과 높은 대역폭으로 모든-모든 연결을 보장합니다.주요 설계 고려 사항은 다음과 같습니다:

  • 손실 없는 직물 구성:RoCE를 가능하게 하기 위해서는 네트워크가 손실이 없어야 합니다. 이것은 IEEE 802.1Qbb에 정의된 우선 흐름 제어 (PFC) 를 통해 달성됩니다.높은 우선 순위의 RDMA 트래픽에 대한 패킷 드롭을 방지하는 장치.
  • 혼잡 관리:명시적 혼잡 통지 (ECN) 는 패킷을 표시하여 종점으로 혼잡을 신호합니다.MCX653105A-HDAT버퍼 오버플로우가 발생하기 전에 전송 속도를 줄이기 위한 어댑터
  • 잎과 척추 디자인:각 서버는 100GbE의 잎 스위치에 연결됩니다. 잎 스위치는 여러 척추 스위치에 연결하여 전체 양분역폭을 제공합니다.이 아키텍처는 더 많은 래크가 추가됨에 따라 선형적으로 확장됩니다..
  • 저장 및 컴퓨팅 세그먼트:이 패브릭은 NVMe-oF 저장 트래픽과 분산 애플리케이션을 위한 서버 간 통신을 모두 지원하며, 모두 동일한 RoCE 지원 인프라를 이용한다.

이 건축물 안에서,NVIDIA 멜라녹스 MCX653105A-HDAT중요한 엔드포인트로 작용하여 서버가 RDMA 조직에 완전히 참여할 수 있으며 CPU에서 네트워크 작업을 할부할 수 있습니다.

3MCX653105A-HDAT의 역할과 주요 특징

MCX653105A-HDATNVIDIA Mellanox ConnectX-6 아키텍처를 기반으로 한 듀얼 포트 100Gb/s 어댑터이다. 제안된 RDMA/RoCE 솔루션의 초석이며, 몇 가지 주요 기능을 제공합니다:

  • 하드웨어 기반 RoCE 오프로드:어댑터는 패킷 캡슐화, 신뢰성 및 혼잡 제어 등 하드웨어의 모든 RDMA 전송 기능을 처리합니다. 이것은 CPU 코어가 응용 프로그램 처리용으로 자유롭게 남아 있음을 보장합니다.서버 처리량 향상에 직접 기여합니다..
  • PCIe Gen3/Gen4 지원:최대 PCIe 4.0 x16를 지원하며,MCX653105A-HDAT 이더넷 어댑터 카드두 포트에서 동시에 100Gb/s의 라인 레이트를 달성할 수 있는 충분한 호스트 대역폭을 제공합니다. 이는 NVMe-oF 및 HPC 작업 부하를 요구하는 데 필수적입니다.
  • 고급 가상화:SR-IOV 및 VirtIO 가속은 어댑터가 가상화 작업량에 거의 네이티브 성능을 제공하여 클라우드 및 NFV 환경에 적합합니다.
  • 프로그래밍 가능한 파이프라인:유연한 분석기는 하드웨어 업그레이드 없이 사용자 정의 패킷 처리 및 새로운 프로토콜 오프로드를 가능하게 하며, 미래에 대한 투자를 보장합니다.

공무원들에 따르면MCX653105A-HDAT 사양, 어댑터는 또한 하드웨어 기반 인라인 암호 및 키 관리를 지원하며 성능 저하 없이 안전한 RDMA를 제공합니다.이것은 특히 금융 서비스 및 데이터 격리 및 암호화가 필수적인 멀티 테넌트 클라우드 배포에 중요합니다..

4배포 및 확장 권고

위험을 최소화하고 최적의 성능을 보장하기 위해 단계적 배포 접근이 권장됩니다.

  • 1단계: 파일럿 그룹:배포MCX653105A-HDAT ConnectX 어댑터 PCIe 네트워크 카드데이터베이스 및 저장 서버의 작은 클러스터에 단위. 이 서버에 연결된 포트에서 PFC와 ECN을 활성화하도록 잎 스위치를 구성합니다.perftest와 같은 벤치마크 도구를 사용하여 RDMA 기능을 검증합니다..
  • 단계 2 저장망 통합:모든 스토리지 노드에 배포를 확장. RoCE 조직에 NVMe-oF 트래픽을 마이그레이션.MCX653105A-HDAT 호환성주요 저장 소프트웨어와 함께 자연은 원활한 전환을 보장합니다.
  • 3단계: 전체 생산 출동:배포MCX653105A-HDAT 이더넷 어댑터 카드 솔루션모든 컴퓨팅 노드에서 RDMA를 활성화합니다. Spark, TensorFlow 및 in-memory 데이터베이스와 같은 분산 애플리케이션을 위한 RDMA를 활성화합니다.

스케일링을 위해, 척추 잎 조직이 피크 트래픽을 처리 할 수 있도록 과도하게 공급되도록하십시오.MCX653105A-HDAT 판매배포가 커지면 NVIDIA의 유니파이드 패브릭 매니저 (UFM) 를 활용하여 자동화된 패브릭 최적화와 건강 모니터링을 수행하세요.

5운영, 모니터링 및 최적화

고성능 RoCE 직물을 유지하려면 능동적인 모니터링과 조정이 필요합니다.

  • 모니터링 도구:Mellanox NEO와 UFM를 사용하여 직물의 상태를 모니터링하고 PFC 일시 중지 프레임을 추적하고 혼잡 핫스팟을 감지합니다.MCX653105A-HDAT 데이터 시트에툴 같은 표준 도구를 통해 사용할 수 있는 상세한 카운터 정보를 제공합니다.
  • 성능 조정:얇은 튜닝 인터럽트 코알레스싱, 링 버퍼 크기와 워크로드 특성에 기반한 PCIe 매개 변수. 어댑터의 고급 기능은 동적 인터럽트 모더레이션 (DIM),교통 패턴에 따라 자동 조정할 수 있습니다..
  • 문제 해결:일반적인 문제로는 잘못된 구성의 QoS 또는 버퍼 고갈로 인한 PFC 폭풍이 포함됩니다. 모든 스위치 및 엔드포인트에서 일관된 QoS 구성을 보장하십시오.MCX653105A-HDAT 가격성능 측면에서 정기적인 검증 테스트에 의해 정당화됩니다.
  • 펌웨어 및 드라이버 업데이트:최신 최적화 및 버그 수정에서 이익을 얻기 위해 어댑터 펌웨어와 NVIDIA 드라이버 스택을 업데이트하십시오.MCX653105A-HDAT 이더넷 어댑터 카드원활한 업데이트를 위한 현장 업그레이드 펌웨어를 지원합니다.
6결론 및 가치 평가

NVIDIA 멜라녹스 MCX653105A-HDAT서버 어댑터는 낮은 지연시간과 높은 처리량을 필요로 하는 현대 데이터 센터 아키텍처에 대한 견고하고 고성능의 기반을 제공합니다. 하드웨어 기반 RDMA/RoCE를 활성화함으로써,그것은 직접 CPU 상부 병목을 해결, 수익을 창출하는 애플리케이션에 대한 컴퓨팅 자원을 자유롭게합니다.가장 까다로운 작업 부하를 지원할 수 있는 손실이 없는 이더넷 천재AI 교육에서 실시간 금융 분석에 이르기까지MCX653105A-HDAT즉각적인 성능 향상과 장기적인 가치를 제공하는 중요한 구성 요소입니다.