기술 솔루션: NVIDIA Mellanox MCX631102AN-ADAT 서버 어댑터
April 27, 2026
이 기술 백서는 고성능 데이터 센터 환경에서 NVIDIA Mellanox MCX631102AN-ADAT 서버 어댑터를 배포하려는 네트워크 아키텍트, 사전 판매 엔지니어 및 운영 리더를 위한 포괄적인 참조 자료를 제공합니다. 이 솔루션은 TCP/IP 스택 오버헤드를 제거하고, RDMA/RoCEv2 저지연 전송을 활성화하며, 스토리지, 데이터베이스 및 AI 워크로드를 위한 서버 처리량을 극대화하는 데 중점을 둡니다.현대 데이터 센터 아키텍처는 동서 트래픽의 폭발적인 증가, 분산 스토리지(NVMe-oF, vSAN)로의 전환, 네트워크 처리가 아닌 애플리케이션 로직을 위해 CPU 사이클을 보존해야 하는 필요성이라는 세 가지 수렴하는 과제에 직면해 있습니다. 기존 TCP/IP를 사용하는 레거시 25GbE 배포는 높은 꼬리 지연 시간(스토리지 작업의 경우 200~500μs), 과도한 패킷당 커널 처리, 비효율적인 소형 패킷 처리량으로 어려움을 겪고 있습니다. 핵심 요구 사항은 CPU 개입 없이 서버 간 직접 메모리 액세스를 가능하게 하는 저지연 무손실 패브릭이며, 기존 이더넷 인프라와의 호환성을 유지해야 합니다.
2. 전체 네트워크 및 시스템 아키텍처 설계
제안된 솔루션은 무손실 RoCEv2 구성을 갖춘 2계층 리프-스파인 토폴로지를 채택합니다. 주요 아키텍처 결정 사항은 다음과 같습니다.
물리 계층:
각 컴퓨팅/스토리지 서버에서 리프 스위치까지 25GbE SFP28 연결, 리프에서 스파인까지 100GbE 또는 400GbE 업링크
- 통합 패브릭: DSCP 기반 우선 순위 지정을 사용하여 표준 TCP 트래픽과 RoCEv2 무손실 흐름을 모두 처리하는 공유 이더넷 패브릭
- 흐름 제어: 무손실 우선 순위에 대한 우선 순위 흐름 제어(PFC), 혼잡 알림을 위한 ECN 표시, DCBX 협상
- 호스트 측: 각 MCX631102AN-ADAT 이더넷 어댑터 카드에 전용 PCIe 4.0 x16 슬롯, 가상화된 환경을 위한 SR-IOV 활성화
- NVMe-oF 배포의 경우 각 스토리지 서버는 두 개의 MCX631102AN-ADAT ConnectX-6 Lx 듀얼 포트 25GbE SFP28 어댑터를 호스팅합니다. 하나는 프런트엔드 애플리케이션 트래픽용이고 다른 하나는 백엔드 복제 및 재빌드 트래픽용으로, 장애 격리 및 QoS 분리를 보장합니다.3. 솔루션에서 MCX631102AN-ADAT의 역할 및 주요 기능MCX631102AN-ADAT는 호스트 측 RDMA 가속을 가능하게 하는 중요한 엔드포인트 장치 역할을 합니다. 주요 기술 기여는 다음과 같습니다.기능
RDMA/처리량에 대한 기능적 이점하드웨어 전송 오프로드RoCEv2, DCQCN, DCT, 태그 일치 – 안정적인 연결 관리를 위한 CPU 개입 없음
PCIe 4.0 x16 인터페이스
하드웨어 분산 수집 및 헤더 분할 – 포트당 37Mpps로 소형 패킷 처리량 향상
| 보안 부팅 및 신뢰 루트 | 보안에 민감한 NFV 및 금융 서비스 배포를 위한 펌웨어 무결성 검증 |
|---|---|
| 최대 256개의 VF를 갖춘 SR-IOV | 하이퍼바이저 가상화 오버헤드 없이 VM/컨테이너로의 RoCE 큐 직접 전달 |
| MCX631102AN-ADAT 데이터시트를 참조하면 어댑터는 금융 거래 또는 통신사 엣지 애플리케이션을 위한 정밀한 PTP/SyncE를 가능하게 하는 하드웨어 타임스탬핑(1ns 해상도의 프리 러닝 타임스탬프 카운터)도 제공합니다. | 4. 배포 및 확장 권장 사항(일반 토폴로지) |
| 기존 배포의 경우 단계적 접근 방식을 권장합니다. | 1단계 – 스토리지 평면 업그레이드: |
| NVMe-oF 대상 소프트웨어(예: SPDK, TargeR)를 실행하는 모든 스토리지 서버에 MCX631102AN-ADAT를 배포합니다. DCBX 자동 협상을 사용하여 PFC 우선 순위 3(RoCE용) 및 1(CNP용)으로 스위치 포트를 구성합니다. | 2단계 – 컴퓨팅 평면 활성화: |
| 데이터베이스 또는 AI 프레임워크(TensorFlow, PyTorch with NCCL)를 실행하는 컴퓨팅 서버에 어댑터를 설치합니다. RDMA 지원 동사 라이브러리를 활성화하고 RoCEv2에 대한 GID 인덱스를 구성합니다. | 3단계 – 네트워크 통합: |
UC 또는 RC 서비스 유형으로 RoCE에 고감도 TCP 워크로드(실시간 분석, 마이크로서비스 사이드카)를 마이그레이션합니다.토폴로지 확인 체크리스트:모든 리프 스위치는 충분한 버퍼 헤드룸을 갖춘 무손실 RoCE(PFC + ECN)를 지원해야 합니다.
종단 간 MTU는 최소 2000바이트(점보 프레임의 경우 9000 권장)
RoCEv2 트래픽(UDP 포트 4791)에 대한 유니캐스트 라우팅 도달 가능성
- 검증된 MCX631102AN-ADAT 호환 목록: NVIDIA Spectrum(권장), Cisco Nexus 9300-EX/FX, DCBX 프로필이 있는 Arista 7050X/7050X35. 운영 및 유지 관리 – 모니터링, 문제 해결 및 최적화혼잡 감지:
- 스위치의 포트별 PFC 일시 중지 프레임 카운터와 ethtool -S 또는 mlxlink를 사용한 어댑터 ECN 표시 패킷 통계를 모니터링합니다.지연 시간 SLO 보장:
- ucxtrace 또는 mlx5cmd와 같은 도구를 사용하여 하드웨어 타임스탬프 지연 시간 모니터링을 배포합니다. 랙 내에서 일반적인 정상 RTT는 10μs 미만, 스파인 간에는 30μs 미만입니다.펌웨어 및 드라이버 정렬:
NVIDIA의 검증된 펌웨어 번들(정확한 부품 번호는 MCX631102AN-ADAT 사양 참조) 및 드라이버 버전(mlx5_core ≥ 5.9)을 사용합니다.
- RMA 및 수명 주기 관리:
- MCX631102AN-ADAT 가격 대비 TCO 분석 시 3-5년 노드 새로 고침 주기를 포함합니다. 여러 글로벌 유통업체에서 다년 보증 지원과 함께 MCX631102AN-ADAT를 판매합니다.
- 문제 해결의 경우 가장 일반적인 함정은 다음과 같습니다. 잘못 구성된 스위치 버퍼 임계값(일시 중지 프레임 폭풍 유발), 잘못된 GID 유형(IPv6 RoCEv2의 경우 GID 유형 2 선호), 애플리케이션 동사에서 하드웨어 오프로드 활성화 부족(로컬 쓰기 액세스로 ibv_reg_mr 확인).
- 6. 요약 및 가치 평가NVIDIA Mellanox MCX631102AN-ADAT는 성숙한 25GbE 인프라에서 진정한 저지연 라인 속도 성능을 발휘하려는 조직을 위해 프로덕션 준비가 된 MCX631102AN-ADAT 이더넷 어댑터 카드 솔루션을 제공합니다. RDMA/RoCEv2 하드웨어 오프로드를 활성화함으로써 이 솔루션은 20마이크로초 미만의 NVMe-oF 지연 시간을 달성하고, 애플리케이션 워크로드를 위해 30% 이상의 CPU 코어를 복구하며, 이전에 100GbE 어댑터에서만 달성 가능했던 소형 패킷 효율성으로 50Gbps 집계 처리량을 유지합니다. 그린필드 하이퍼컨버지드 또는 AI 스토리지 클러스터를 계획하는 아키텍트에게 MCX631102AN-ADAT는 이더넷의 운영 단순성으로 InfiniBand의 지연 시간 프로필을 제공하는 전략적 인에이블러입니다.

