RCCLX: AMD 플랫폼 (새 탭에서 열림)

gpu-acceleration distributed-computing llm-inference rcclx amd-rocm torchcomms tensor-parallelism low-precision-collectives

메타(Meta)는 AMD 플랫폼에서 AI 모델의 혁신을 가속화하기 위해 최적화된 통신 라이브러리인 RCCLX를 오픈소스로 공개했습니다. RCCLX는 메타 내부의 워크로드를 위해 개발된 RCCL의 강화 버전으로, 직접 데이터 액세스(DDA)와 저정밀도 집합 통신 기능을 통해 LLM 추론 및 학습 성능을 대폭 향상시킵니다. 이 라이브러리는 Torchcomms API에 통합되어 개발자들이 하드웨어 백엔드에 구애받지 않고 고성능 통신 기능을 손쉽게 활용할 수 있도록 설계되었습니다.

Direct Data Access(DDA)를 통한 단일 노드 통신 최적화

추론 병목 해결: LLM 추론 과정 중 텐서 병렬화 시 발생하는 AllReduce 연산은 전체 지연 시간의 최대 30%를 차지하는데, DDA는 이를 효과적으로 단축합니다.
DDA Flat 알고리즘: 각 랭크가 다른 랭크의 메모리에서 직접 데이터를 로드하도록 하여 소규모 메시지의 지연 시간을 O(N)에서 O(1)로 줄여줍니다.
DDA Tree 알고리즘: 연산을 Reduce-scatter와 All-gather 단계로 나누어 수행하며, 링(Ring) 알고리즘과 동일한 데이터 이동량을 유지하면서도 중간 규모 메시지의 지연 시간을 상수로 고정합니다.
성능 지표: AMD MI300X GPU 기준, 디코딩(작은 메시지) 단계에서 1050%, 프리필(큰 메시지) 단계에서 1030%의 성능 향상을 보였으며, 결과적으로 TTIT(Time-to-Incremental-Token)를 약 10% 개선했습니다.

저정밀도 집합 통신(Low-precision Collectives)의 활용

FP8 양자화 적용: FP32 및 BF16 데이터 타입을 지원하며, FP8 양자화를 통해 최대 4:1의 압축률을 구현함으로써 16MB 이상의 대규모 메시지 통신 오버헤드를 줄입니다.
수치적 안정성: 통신 시에는 저정밀도를 사용하지만, 계산 단계에서는 FP32 고정밀도를 유지하여 수치적 오차를 최소화합니다.
효율적인 인프라 활용: AMD Infinity Fabric을 통한 병렬 P2P 메시 통신을 활용하여 대역폭 사용을 최적화합니다.
실제 효과: 내부 실험 결과 지연 시간은 약 9~10% 감소하고 처리량은 7% 증가했으며, GSM8K 평가에서 모델 정확도 하락은 0.3% 수준에 불과했습니다.

Torchcomms 통합 및 플랫폼 호환성

단일 API 제공: RCCLX는 Torchcomms API의 커스텀 백엔드로 통합되어, NVIDIA용 NCCLX와 기능적 동등성을 목표로 합니다.
유연한 이식성: 개발자는 기존에 익숙한 API를 그대로 사용하면서 코드 수정 없이 AMD 플랫폼으로 애플리케이션을 이식하고 CTran과 같은 고성능 기능을 사용할 수 있습니다.
간편한 활성화: RCCL_LOW_PRECISION_ENABLE=1과 같은 환경 변수 설정만으로 고성능 최적화 기능을 즉시 활성화할 수 있는 편의성을 제공합니다.

RCCLX는 AMD 하드웨어의 잠재력을 최대한 끌어올리려는 연구자와 엔지니어에게 필수적인 도구입니다. 현재 공개된 초기 버전에는 GPU 상주 집합 통신인 AllToAllvDynamic 등이 포함되어 있으며, 향후 수개월 내에 더욱 다양한 고성능 전송 기능들이 추가될 예정이므로 LLM 서비스의 비용 효율성을 높이고자 하는 팀에게 적극 권장됩니다.