NVIDIA Mellanox MCX556A-ECAT 실제 적용: RDMA/RoCE를 통한 초저지연 및 서버 처리량 혁신

April 23, 2026

에 대한 최신 회사 뉴스 NVIDIA Mellanox MCX556A-ECAT 실제 적용: RDMA/RoCE를 통한 초저지연 및 서버 처리량 혁신

분산 스토리지, 고성능 컴퓨팅(HPC) 및 AI 학습 클러스터에서 네트워크 지연 시간과 CPU 오버헤드는 오랫동안 전체 서버 효율성을 제약해 왔습니다. 대규모 클라우드 서비스 제공업체에서의 최근 배포는 NVIDIA Mellanox MCX556A-ECAT이 RDMA 및 RoCE 기술을 통해 이러한 과제를 어떻게 해결하고 처리량과 지연 시간 감소 모두에서 측정 가능한 이점을 제공하는지 보여줍니다.

배경 및 과제

고객은 수천 개의 가상 머신을 지원하는 멀티 페타바이트 Ceph 스토리지 클러스터를 운영합니다. 업그레이드 이전에는 표준 TCP/IP를 사용하는 25GbE 인프라가 피크 로드 중에 높은 CPU 사용률(스토리지 노드에서 60% 이상)과 일관성 없는 지연 시간으로 어려움을 겪었습니다. 백업 창은 종종 8시간을 초과했으며 AI 학습 작업은 I/O 중단을 경험했습니다. 팀은 CPU 개입을 줄이고 지연 시간을 낮추며 전체 인프라 재정비 없이 확장할 수 있는 솔루션이 필요했습니다. MCX556A-ECAT 데이터시트를 검토하고 MCX556A-ECAT 사양을 비교한 후 핵심 업그레이드 구성 요소로 MCX556A-ECAT을 선택했습니다.

솔루션 및 배포

아키텍처는 PCIe 3.0/4.0 x16을 지원하는 듀얼 포트 100GbE 어댑터인 MCX556A-ECAT 이더넷 어댑터 카드를 중심으로 이루어졌습니다. MCX556A-ECAT ConnectX 어댑터 PCIe 네트워크 카드로 배포되어 최소한의 스위치 변경으로 기존 리프-스파인 토폴로지 전반에 걸쳐 RoCE v2를 지원했습니다. 주요 배포 단계는 다음과 같습니다.

  • 40개의 스토리지 노드와 150개의 컴퓨팅 노드에서 MCX556A-ECAT으로 레거시 25GbE 어댑터 교체
  • 하드웨어 오프로드 활성화: NVMe over Fabrics(NVMe-oF), GPUDirect RDMA 및 데이터 무결성을 위한 T10-DIF
  • 무손실 RoCE 전송을 위한 Priority Flow Control(PFC) 및 Enhanced Transmission Selection(ETS) 구성
  • 기존 Mellanox Spectrum 스위치 및 QSFP28 광학 장치와의 MCX556A-ECAT 호환 상태 확인

전체 배포는 컴퓨팅 워크로드에 대한 라이브 마이그레이션을 사용하여 다운타임 없이 2주 동안 소요되었습니다.

결과 및 이점

배포 후 측정 결과 주요 지표 전반에 걸쳐 극적인 개선이 나타났습니다. 다음 표는 이전/이후 비교를 요약합니다.

지표 이전(25GbE TCP/IP) 이후(RoCE가 있는 MCX556A-ECAT) 개선
스토리지 노드 CPU 사용률 62% 18% ↓ 71%
평균 지연 시간(4K 랜덤 읽기) 450 µs 42 µs ↓ 90.7%
총 클러스터 처리량 38 Gb/s 172 Gb/s ↑ 353%
백업 창 기간 8.5시간 1.8시간 ↓ 79%

숫자 외에도 엔지니어링 팀은 RDMA가 지터를 크게 줄여 이전에 AI 학습 체크포인트를 괴롭혔던 "꼬리 지연 시간" 스파이크를 제거했다고 보고했습니다. 성숙한 MCX556A-ECAT 이더넷 어댑터 카드 솔루션으로서 이 카드는 내장된 원격 측정 및 혼잡 알림을 통해 문제 해결을 단순화했습니다. 성능 향상 대비 MCX556A-ECAT 가격을 평가하는 조직의 경우 고객은 CPU 코어 절약과 더 빠른 배치 작업 완료만으로 9개월 이내에 ROI를 달성했습니다. 이 어댑터는 이제 여러 채널 파트너를 통해 MCX556A-ECAT 판매 중이며, 이 수준의 성능을 중견 기업에서도 사용할 수 있습니다.

요약 및 전망

이 배포는 MCX556A-ECAT이 마이크로초 미만의 RDMA 지연 시간, 급격한 CPU 오프로드 및 선형 처리량 확장의 약속을 이행함을 입증합니다. 분산 데이터베이스, HPC 시뮬레이션 또는 NVMe-oF 스토리지를 실행하든 NVIDIA Mellanox MCX556A-ECAT은 미래 지향적인 기반을 제공합니다. 100GbE가 데이터 센터 스파인의 새로운 표준이 됨에 따라 이 어댑터를 중심으로 구축된 솔루션은 레거시 TCP/IP 스택보다 계속해서 뛰어난 성능을 발휘할 것입니다. 자세한 계획은 공식 MCX556A-ECAT 데이터시트를 참조하거나 솔루션 아키텍트와 상담하여 특정 환경에 대한 MCX556A-ECAT 호환 구성을 검증하십시오.