Meta / ai-infrastructure

2 개의 포스트

meta

Building Prometheus: How Backend Aggregation Enables Gigawatt-Scale AI Clusters (새 탭에서 열림)

Meta는 기가와트(GW)급 규모의 AI 클러스터인 '프로메테우스(Prometheus)'를 구축하기 위해 백엔드 집선(Backend Aggregation, 이하 BAG) 기술을 핵심 아키텍처로 도입했습니다. BAG는 수만 개의 GPU를 여러 데이터 센터와 지역에 걸쳐 원활하게 연결하는 이더넷 기반의 슈퍼 스파인(Super Spine) 네트워크 계층입니다. 이를 통해 Meta는 페타비트(Pbps)급의 대역폭을 확보하고, 서로 다른 네트워크 패브릭 간의 유연한 통합과 높은 신뢰성을 구현하여 차세대 AI 인프라의 토대를 마련했습니다. ### BAG의 역할과 네트워크 구조 * **중앙 집중식 연결**: 여러 데이터 센터와 지역에 분산된 스파인 패브릭을 하나로 묶는 슈퍼 스파인 역할을 수행하며, 지역 간 16~48 Pbps에 달하는 초대용량 대역폭을 지원합니다. * **하이브리드 패브릭 통합**: 스케줄링 방식의 DSF(Disaggregated Schedule Fabric)와 비스케줄링 방식의 NSF(Non-Scheduled Fabric)라는 두 가지 서로 다른 L2 네트워크 기술을 BAG 계층에서 안정적으로 통합합니다. * **토폴로지 전략**: 관리 효율성을 강조한 평면(Planar) 토폴로지와 경로 다양성을 통해 회복 탄력성을 높인 분산(Spread) 연결 토폴로지를 사이트 규모와 광케이블 가용성에 따라 선택적으로 운용합니다. ### 하드웨어 사양 및 라우팅 최적화 * **고성능 ASIC 활용**: 최대 432개의 800G 포트를 제공하는 Jericho3(J3) ASIC 기반 모듈형 샤시를 채택하여 확장성과 대역폭 요구사항을 충족합니다. * **지능형 부하 분산**: eBGP와 링크 대역폭 속성을 활용한 UCMP(Unequal Cost Multipath) 라우팅을 통해 효율적인 트래픽 분산과 신속한 장애 복구 기능을 제공합니다. * **보안 아키텍처**: 지역 간을 잇는 BAG-to-BAG 연결에는 MACsec 암호화를 적용하여 대규모 네트워크 인프라의 보안성을 강화했습니다. ### 장애 대응 및 성능 유지 기술 * **딥 버퍼(Deep Buffer) 도입**: 지역 간 장거리 연결에서 발생하는 지연과 혼잡을 관리하기 위해 딥 버퍼 스위치를 사용하여 PFC(Priority Flow Control) 기반의 무손실 전송을 지원합니다. * **오버서브스크립션 관리**: L2 계층에서 BAG로 이어지는 구간의 오버서브스크립션 비율을 약 4.5:1 수준으로 정밀하게 제어하여 규모 확장과 성능 유지 사이의 균형을 맞춥니다. * **가용성 극대화**: 포트 스트라이핑(Port Striping) 및 조건부 경로 요약 기술을 통해 특정 구간 장애 시 데이터가 유실되는 블랙홀링(Blackholing) 현상을 방지합니다. ### 실용적인 결론 단일 데이터 센터를 넘어 수만 개의 GPU를 연결하는 기가와트급 AI 클러스터를 설계할 때는 물리적 거리에 따른 지연과 대역폭 병목을 해결하는 것이 최우선 과제입니다. Meta의 BAG 사례처럼 딥 버퍼 스위치와 고성능 ASIC을 결합한 계층형 집선 구조를 도입하고, 네트워크 상황에 맞는 유연한 토폴로지를 설계하는 것이 미래 AI 인프라의 확장성을 결정짓는 핵심 요소가 될 것입니다.

meta

Zoomer: Powering AI Performance at Meta's Scale Through Intelligent Debugging and Optimization (새 탭에서 열림)

Meta는 수십만 개의 GPU를 운용하는 대규모 AI 인프라의 효율성을 극대화하기 위해 자동화된 디버깅 및 최적화 플랫폼인 **Zoomer**를 도입했습니다. Zoomer는 트레이닝과 추론 워크로드 전반에 걸쳐 심층적인 성능 인사이트를 제공하여 에너지 소비를 줄이고 워크플로우를 가속화하는 역할을 합니다. 이를 통해 Meta는 모델 트레이닝 시간을 단축하고 초당 쿼리 처리 수(QPS)를 유의미하게 개선하며 AI 인프라 최적화의 표준을 구축했습니다. **통합 분석을 위한 3계층 아키텍처** * **인프라 및 플랫폼 계층**: Meta의 블롭 스토리지 플랫폼인 Manifold를 기반으로 분산 저장 시스템을 구축하여, 수천 대의 호스트에서 발생하는 방대한 트레이스 데이터를 안정적으로 수집하고 처리합니다. * **분석 및 인사이트 엔진**: Kineto와 NVIDIA DCGM을 통한 GPU 분석, StrobeLight 기반의 CPU 프로파일링, dyno 원격 측정을 통한 호스트 지표 분석을 결합합니다. 이를 통해 분산 학습 시 발생하는 스트래글러(straggler) 감지, 메모리 할당 패턴 분석, 통신 패턴 최적화 등의 기능을 수행합니다. * **시각화 및 UI 계층**: 복잡한 성능 데이터를 직관적인 타임라인, 히트맵, 대시보드로 변환합니다. Perfetto와 통합되어 커널 수준의 검사가 가능하며, 하드웨어 활용도가 낮은 outlier를 신속하게 식별할 수 있는 요약 정보를 제공합니다. **지능형 프로파일링 트리거 및 데이터 수집** * **자동화된 트리거**: 트레이닝 워크로드의 경우 초기 시작 시점의 노이즈를 피해 안정적인 상태인 550~555회 반복(iteration) 시점에서 자동으로 프로파일링을 수행합니다. 추론 워크로드는 온디맨드 방식이나 자동화된 부하 테스트 시스템과 연동하여 트리거됩니다. * **포괄적 데이터 캡처**: SM 활용도, 텐서 코어 가동률, GPU 메모리 대역폭 등 하위 레벨 지표뿐만 아니라 CPU, 네트워크 I/O, 스토리지 액세스 패턴을 동시에 수집하여 시스템 전반의 병목 현상을 파악합니다. * **추론 및 통신 특화 분석**: 추론 환경에서는 서버 레이턴시와 요청당 메모리 할당 패턴을 정밀 분석하며, 분산 학습 환경에서는 NCCL 집합 통신 작업과 노드 간 통신 효율성을 집중적으로 검사합니다. **실제 적용 성과 및 운영 효율화** * Zoomer는 광고 추천, 생성형 AI(GenAI), 컴퓨터 비전 등 Meta의 핵심 모델 서비스에 적용되어 매일 수만 개의 프로파일링 보고서를 생성하고 있습니다. * 성능 안티 패턴을 자동으로 감지하고 실행 가능한 최적화 권고 사항을 제공함으로써, 엔지니어가 수동으로 병목 지점을 찾는 데 드는 시간을 대폭 줄였습니다. * 불필요한 리소스 낭비를 제거하여 확보된 컴퓨팅 자원을 더 큰 모델 트레이닝이나 사용자 서비스 확대에 재투자함으로써 인프라 전반의 선순환 구조를 실현했습니다. Zoomer는 대규모 GPU 클러스터를 운영하는 조직에서 성능 튜닝을 자동화하고 표준화하는 것이 얼마나 중요한지를 보여주는 사례입니다. 인프라의 1% 효율 개선이 막대한 비용 절감과 혁신 가속화로 이어지는 만큼, Zoomer와 같은 통합 최적화 플랫폼은 생성형 AI 시대의 핵심 인프라 기술로 평가받습니다.