NVIDIA Mellanox MCX4121A-ACAT 서버 어댑터 기술 솔루션: 저지연 및 최대 성능을 위한 RDMA/RoCE 아키텍처링

March 9, 2026

1프로젝트 배경 및 요구사항 분석

현대 데이터 센터는 실시간 분석, 분산 기계 학습 훈련,고성능 소프트웨어 정의 저장장치TCP/IP 스택에 크게 의존하는 전통적인 네트워크 아키텍처는 상당한 지연 시간 및 CPU 오버헤드를 도입합니다. 링크 속도가 10GbE에서 25GbE 이상으로 전환됨에 따라,커널 바이패스 방식은 단지 장점일 뿐이 아닙니다.하지만 필요성이에요.네트워크 아키텍트와 스토리지 엔지니어들은 전체적인 인프라 개편을 요구하지 않고 NVMe-oF 및 마이크로 서비스 아키텍처의 잠재력을 최대한 발휘할 수 있는 솔루션을 찾고 있습니다.전형적인 대규모 배포에서 확인 된 주요 요구 사항은 스토리지 트래픽에 대한 10 마이크로초 이하의 지연, 네트워크 I/O에 대한 CPU 오버헤드 40% 감소,그리고 표준 TCP/IP 트래픽과 초저연속 RDMA 트래픽을 모두 운반할 수 있는 통합된 조직.

2전체 네트워크 및 시스템 아키텍처 설계

제안된 아키텍처는 동일한 물리적 인프라를 통해 표준 LAN 트래픽과 스토리지 트래픽을 지원하도록 설계된 손실이없는 컨버전드 이더넷 트러블에 초점을 맞추고 있습니다.이 디자인은 RoCE (RDMA over Converged Ethernet) 를 사용할 수 있는 스위치와 함께 잎 척추 토폴로지를 활용합니다.주요 설계 원칙은 다음과 같습니다:

합성 직물:단일 25GbE 네트워크는 모든 트래픽 유형을 운반하며 별도의 저장 및 데이터 네트워크의 필요성을 제거합니다 (LAN/SAN 컨버전스).
손실 없는 이더넷 재단:우선순위 흐름 제어 (PFC, IEEE 802.1Qbb) 및 향상된 전송 선택 (ETS, IEEE 802.1Qaz) 을 구현하여 RDMA 트래픽에 대한 손실 없는 서비스 클래스를 생성합니다.그렇지 않으면 재앙적 인 대기 스파이크를 일으킬 수 있는 패킷 드롭을 방지하는 것.
끝에서 끝까지 RDMA:네트워크 계층에서 작동하는 RoCEv2를 배포하여 RDMA가 L3 경계를 통과하고 RoCEv1과 달리 단일 방송 도메인을 초과 할 수 있습니다.

이 아키텍처 내에서 서버 엔드포인트는 가장 중요한 구성 요소입니다.NVIDIA 멜라노크스 MCX4121A-ACAT서버 어댑터 (server adapter) 는 RoCE 프로토콜을 실행하고 호스트 CPU에서 복잡한 네트워크 기능을 오프로드하는 지능형 인터페이스로 역할을 합니다.

3NVIDIA Mellanox MCX4121A-ACAT의 역할

의MCX4121A-ACAT 이더넷 어댑터 카드서버 측 배포의 초석입니다. ConnectX-4 Lx 컨트롤러를 기반으로, 이MCX4121A-ACAT ConnectX-4 Lx 듀얼 포트 25GbE SFP28어댑터는 프로젝트의 목표를 달성하는 데 필요한 하드웨어 가속을 제공합니다. 아키텍처에 대한 구체적인 기여는 아래에 자세히 설명되어 있습니다.

하드웨어 RoCE 엔진:어댑터는 전체 RoCEv2 프로토콜을 실리콘으로 구현합니다. 이것은 메모리 읽기 / 쓰기 및 전송 / 수신 동사를 포함한 RDMA 작업이 NIC에서 완전히 처리된다는 것을 의미합니다.커널을 우회하고 컨텍스트 스위치를 제거이 메커니즘은 10 마이크로초 이하의 애플리케이션에서 애플리케이션의 지연 시간을 달성하는 주요 메커니즘입니다.
NVMe-oF 오프로드:저장 트래픽의 경우,MCX4121A-ACATRDMA를 통해 NVMe over Fabrics (NVMe-oF) 를 지원합니다. NVMe 큐 페어 처리를 오프로드하여 저장 대상 또는 초기자가 최소한의 CPU 개입으로 수백만 IOPS를 처리 할 수 있습니다.
동적 중계 조절:어댑터는 지능적으로 방해를 조절하고 교통량에 따라 결합합니다.이것은 높은 처리량 시나리오에서 호스트 CPU 오버헤드를 줄이고 특정 대기열에 대한 중단을 허용함으로써 민감한 트래픽에 대한 낮은 지연 시간을 유지합니다..
서비스 품질 (QoS) 집행:하드웨어 기반의 QoS를 지원하여 아키텍트가 다른 트래픽 클래스 (예: 저장, 관리, 컴퓨팅) 를 다른 우선 순위 대기열에 할당 할 수 있습니다.이것은 RDMA 트래픽이 보장된 대역폭과 낮은 지연 시간을 받는 것을 보장합니다., 심지어 네트워크 혼잡 도중에도.

4배포 및 확장 권고

위험을 최소화하기 위해 단계적 배포 접근이 권장됩니다. 다음 토폴로지와 단계는 전형적인 구현을 설명합니다.

파일럿 단계:저장 서버와 컴퓨팅 노드의 작은 클러스터를 배포MCX4121A-ACAT, RoCE가 가능한 전용 잎 스위치에 연결됩니다. RoCE 트래픽에 대한 손실없는 조직을 보장하기 위해 PFC / ETS 구성을 검증합니다.
통합 및 테스트:설정MCX4121A-ACAT 이더넷 어댑터 카드 솔루션저장 대상 (예를 들어, Ceph, Lustre, 또는 독점 NVMe-oF 배열) 및 클라이언트 응용 프로그램 모두에서.가장 좋은 것기본 레이턴티 (ib_send_lat) 와 대역폭 (ib_send_bw) 를 측정합니다.
직물 스케일링:파일럿이 안정되면 전체 잎 척추 토폴로지로 확장하십시오. 척추 스위치가 또한 전체 네트워크에서 손실없는 QoS 표시를 유지하기 위해 RoCE 인식이 있는지 확인하십시오.NVIDIA 멜라노크스 MCX4121A-ACAT활성/준비 상태 또는 802.3ad 링크 집합을 허용합니다.
호환성 검사:항상 확인하세요MCX4121A-ACAT 호환성하드웨어 및 펌웨어 버전MCX4121A-ACAT 사양그리고MCX4121A-ACAT 데이터 시트서버 메인보드, BIOS 설정 및 스위치 펌웨어와의 호환성을 보장하기 위해 검토해야합니다.MCX4121A-ACAT 가격특히 대용량 생산을 계획할 때MCX4121A-ACAT 판매구매.

5운영 모니터링, 문제 해결 및 최적화

최고 성능을 유지하려면 능동적인 모니터링과 RoCE 직물 행동에 대한 확실한 이해가 필요합니다. 운영 팀에 대한 주요 권장 사항은 다음과 같습니다.

RDMA 트래픽 모니터링:같은 도구들을 사용하세요.에트툴,mlxstat, 그리고 NVIDIA의UFM (통합 직물 관리자)어댑터 온도, 링크 오류 및 RDMA 대기열 쌍 상태를 모니터링하기 위해. 중요한 메트릭은: RoCE 패킷 드롭, PFC 일시 중지 프레임 수, PCIe 대역폭 사용.
결함 격리:RDMA 트래픽의 높은 지연 시간은 거의 항상 혼잡으로 인해 패킷 떨어짐에 의해 발생합니다. PFC 일시 중지 프레임을 조사하십시오. 특정 대기열이 과도하게 일시 중지되는 경우,그것은 하류에 있는 병목을 나타냅니다 (e예를 들어, 스위치 출구 포트에서).MCX4121A-ACAT첨단 카운터는 정밀하게 혼잡의 원인을 파악하는 데 도움이 될 수 있습니다.
성능 조정:
- MTU 크기:패킷 당 오버헤드를 줄이고 큰 I/O 성능을 향상시키기 위해 어댑터와 스위치 모두에서 9000 바이트 (엄보 프레임) 로 증가합니다.
- 수신 측면 확장 (RSS):RSS가 여러 CPU 코어에 트래픽을 배포하도록 구성되어있어 어댑터가 초당 높은 패킷 (PPS) 속도를 처리 할 수 있도록하십시오.
- 버퍼 튜닝작업 부하 특성에 따라 어댑터의 수신 및 전송 버퍼를 조정합니다 (예를 들어, 저장용으로 더 큰 버퍼, HPC에 더 작은 버퍼).

6결론 및 가치 평가

의MCX4121A-ACATNVIDIA Mellanox에서 다음 세대의 데이터 센터를 구축하기 위한 성숙하고 고성능의 기반을 제공합니다.조직은 변화의 결과를 얻을 수 있습니다.: 서버 처리량은 CPU가 네트워크 오버헤드에서 자유로울 때 최대화 될 수 있습니다. 대기 시간은 단자리 마이크로초로 급격히 감소하여 실시간 애플리케이션을 가능하게합니다.그리고 전체 소유 비용이 인프라 컨버전스를 통해 낮아집니다.25GbE 로드맵을 계획하는 건축가들에게MCX4121A-ACAT강력한 NVIDIA Mellanox 생태계가 뒷받침하는 성능과 효율성에 대한 전략적 투자입니다.