RDMA/RoCE 낮은 지연 전송 및 서버 처리량 향상

April 28, 2026

RDMA/RoCE 낮은 지연 전송 및 서버 처리량 향상

이 기술 백서는 아키텍트, 사전 영업 엔지니어 및 운영 리더에게  NVIDIA Mellanox MCX631432AN-ADAB 를 중심으로 한 포괄적인 참조 설계를 제공합니다. 이 솔루션은 고성능, 통합 RDMA/RoCE 패브릭의 핵심으로 MCX631432AN-ADAB 이더넷 어댑터 카드를 배포하여 CPU 오버헤드, 일관성 없는 스토리지 지연 시간 및 25GbE 대역폭 활용도 저하와 같은 현대 데이터 센터의 문제를 해결합니다.기존 데이터 센터 네트워크는 컴퓨팅 및 스토리지 트래픽 모두에 TCP/IP를 사용하므로 CPU가 모든 패킷을 처리해야 합니다. 분산 데이터베이스, NVMe-over-Fabrics (NVMe-oF) 또는 AI 학습 워크로드를 실행하는 환경에서는 이 소프트웨어 기반 접근 방식이 세 가지 근본적인 문제를 야기합니다. 높은 지연 시간(스토리지 작업의 경우 종종 50μs 초과), 상당한 CPU 부담(네트워크 처리의 경우 30-60%), 프로토콜 오버헤드로 인한 물리적 대역폭의 비효율적인 사용입니다. 25GbE가 표준 액세스 계층 속도가 됨에 따라 이러한 비효율성은 더 이상 용납될 수 없습니다. 이 솔루션의 목표 요구 사항은 다음과 같습니다. 엔드 투 엔드 스토리지 지연 시간 5μs 미만, 네트워크 I/O에 대한 CPU 사용률 10% 미만, 서버당 듀얼 25GbE 포트의 전체 라인 속도 활용입니다.제안된 아키텍처는 계층 2에서 손실 없는 이더넷을 갖춘 2계층 스파인-리프 토폴로지를 채택합니다. 컴퓨팅 및 스토리지 노드는 리프 스위치에 균등하게 분산되며, 각 스위치는 PFC(Priority Flow Control) 및 ECN(Explicit Congestion Notification)으로 구성되어 RoCEv2를 지원합니다. 핵심 아키텍처 결정은 모든 서버에 MCX631432AN-ADAB ConnectX-6 Lx 듀얼 포트 25GbE SFP28 어댑터를 배포하여 네트워크 연결 및 RDMA에 대한 하드웨어 오프로드를 제공하는 것입니다. RoCE 트래픽을 위해 전용 DSCP 기반 우선 순위 큐가 할당되며, 이는 최선 노력 IP 트래픽과 분리됩니다. 중앙 집중식 관리는 스위치 구성을 위해 NVIDIA의 Cumulus Linux 또는 SONiC을 사용하고, 호스트 측 오케스트레이션은 NVIDIA OFED 스택을 활용합니다.

3. NVIDIA Mellanox MCX631432AN-ADAB의 역할 및 주요 기능

이 솔루션 내에서 MCX631432AN-ADAB는 일반 서버를 저지연, 고처리량 노드로 변환하는 중요한 역할을 합니다. MCX631432AN-ADAB 데이터시트를 기반으로 이 어댑터는 다음과 같은 여러 고급 기능을 통합합니다.

하드웨어 RDMA 오프로드:

실리콘 기반의 완전한 RoCEv2 상태 머신으로 소프트웨어 기반 전송 처리를 제거합니다. 활성 광 및 DAC 케이블링을 모두 지원하며 포트당 독립적인 PPS 처리가 가능합니다.

PCIe 4.0 x16 호스트 인터페이스:

최대 200Gbps의 양방향 대역폭을 제공하여 어댑터와 호스트 메모리 간에 병목 현상이 없습니다.인라인 암호화 오프로드: 라인 속도로 IPsec 및 TLS 처리가 가능하며 제로 트러스트 스토리지 네트워크에 중요합니다.NVMe-oF 가속: NVMe/TCP 및 NVMe/RoCE에 최적화된 하드웨어 기반 명령 큐잉 및 데이터 배치입니다.

  • 공식 MCX631432AN-ADAB 사양에 따르면 이 어댑터는 800ns 미만의 하드웨어 지연 시간을 제공하며 초당 최대 2천만 개의 메시지를 지원합니다. 오픈 소스 RDMACM 라이브러리와 결합하면 애플리케이션은 코드 변경을 최소화하면서 TCP 소켓에서 RDMA 동사로 전환할 수 있습니다. 이 솔루션을 평가하는 조직의 경우 MCX631432AN-ADAB 호환 서버 목록에 RHEL, Ubuntu, Rocky Linux 및 Windows Server에 대한 인증 드라이버가 포함된 모든 주요 OEM 플랫폼(Dell PowerEdge, HPE ProLiant, Lenovo ThinkSystem 및 Supermicro)이 포함된다는 점에 유의하는 것이 중요합니다.4. 배포 및 확장 권장 사항
  • 일반적인 랙 수준 배포는 다음과 같은 패턴을 따릅니다. 각 컴퓨팅 또는 스토리지 노드는 하나의 MCX631432AN-ADAB 이더넷 어댑터 카드 솔루션을 받으며, 이중 포트는 중복성을 위해 활성-활성 LACP 본딩으로 구성되거나 별도의 패브릭 경로(리프-A로 하나, 리프-B로 하나)로 구성됩니다. 물리적 토폴로지는 간단합니다:각 서버 → 두 개의 25GbE 링크 → 두 개의 별도 리프 스위치(히트리스 장애 조치 지원).
  • 리프 스위치 → 100GbE 업링크 → 두 개의 스파인 스위치(전체 메시 논블로킹).모든 스위치에서 PFC가 활성화된 RoCE 트래픽에 대한 전용 DSCP 표시(예: 46).
  • 200개 이상의 서버로 확장하려면 스토리지 및 컴퓨팅에 대해 별도의 RoCE 클러스터를 배포하거나 QoS 정책을 사용하여 스토리지 RoCE 트래픽이 우선 순위가 지정되도록 하는 것이 좋습니다. 리프 스위치의 버퍼 조정도 중요합니다. 포트당 공유 버퍼 크기는 패킷 손실 없이 마이크로 버스트를 흡수하기 위해 25GbE 포트에 대해 12MB로 증가해야 합니다. 조직은 대량 가격 책정을 위해 MCX631432AN-ADAB 판매 공급업체 카탈로그를 참조할 수 있으며, 노드당 MCX631432AN-ADAB 가격은 CPU 절감 및 스토리지 효율성 향상으로 인해 일반적으로 6개월 이내에 상각됩니다.5. 운영, 모니터링 및 성능 조정
  • 배포 후 다음 도구와 관행은 지속적인 저지연을 보장합니다:호스트 측 모니터링:

mlx_perf 및 ethtool -S를 사용하여 큐별 RDMA 카운터, PCIe 재전송 및 RoCE 혼잡 표시를 추적합니다.스위치 텔레메트리: PFC 감시 및 ECN 표시 히스토그램을 활성화하여 프로덕션에 영향을 미치기 전에 헤드 오브 라인 차단을 감지합니다. irqbalance를 설정하여 RDMA 완료 큐에 대한 CPU 코어를 격리합니다. PCIe 최대 읽기 요청 크기를 4096바이트로 늘립니다. 잘못된 혼잡 신호를 방지하기 위해 최선 노력 큐에서 ECN을 비활성화합니다.

펌웨어 및 드라이버 수명 주기:

NVIDIA OFED 릴리스 노트를 구독합니다. MCX631432AN-ADAB 이더넷 어댑터 카드는 듀얼 이미지 뱅크로 인해 호스트 재부팅 없이 인플레이스 펌웨어 업그레이드를 지원합니다.문제 해결을 위해 어댑터의 내장 오류 카운터(예: 심볼 오류, 로컬 링크 무결성 실패)는 빠른 진단을 제공합니다. 새 스위치 모델과 통합할 때 NVIDIA에서 유지 관리하는 MCX631432AN-ADAB 호환 상호 운용성 매트릭스를 확인하십시오.6. 요약 및 가치 평가

  • NVIDIA Mellanox MCX631432AN-ADAB 기반 솔루션은 성능, TCO 및 운영 단순성의 세 가지 차원에서 측정 가능한 가치를 제공합니다. 전송, 암호화 및 스토리지 프로토콜 처리를 CPU에서 어댑터로 이동함으로써 조직은 5μs 미만의 NVMe-oF 지연 시간을 달성하는 동시에 애플리케이션 로직을 위해 40% 이상의 CPU 사이클을 확보합니다. 듀얼 포트 25GbE 설계는 서버 연결을 미래에 대비하고 성숙한 NVIDIA OFED 소프트웨어 스택은 통합 위험을 줄입니다. 그린필드 25GbE 배포를 계획하거나 기존 TCP 바운드 인프라를 현대화하는 아키텍트에게 이 기술 솔루션(MCX631432AN-ADAB ConnectX-6 Lx 듀얼 포트 25GbE SFP28 중심)은 RDMA/RoCE 성공을 위한 입증되고 확장 가능하며 투자 보호된 경로를 나타냅니다.