ai-infrastructure | Techlist.io

Zoomer: 지능형 디 (새 탭에서 열림)

Meta는 수십만 개의 GPU를 운용하는 대규모 AI 인프라의 효율성을 극대화하기 위해 자동화된 디버깅 및 최적화 플랫폼인 **Zoomer**를 도입했습니다. Zoomer는 트레이닝과 추론 워크로드 전반에 걸쳐 심층적인 성능 인사이트를 제공하여 에너지 소비를 줄이고 워크플로우를 가속화하는 역할을 합니다. 이를 통해 Meta는 모델 트레이닝 시간을 단축하고 초당 쿼리 처리 수(QPS)를 유의미하게 개선하며 AI 인프라 최적화의 표준을 구축했습니다. **통합 분석을 위한 3계층 아키텍처** * **인프라 및 플랫폼 계층**: Meta의 블롭 스토리지 플랫폼인 Manifold를 기반으로 분산 저장 시스템을 구축하여, 수천 대의 호스트에서 발생하는 방대한 트레이스 데이터를 안정적으로 수집하고 처리합니다. * **분석 및 인사이트 엔진**: Kineto와 NVIDIA DCGM을 통한 GPU 분석, StrobeLight 기반의 CPU 프로파일링, dyno 원격 측정을 통한 호스트 지표 분석을 결합합니다. 이를 통해 분산 학습 시 발생하는 스트래글러(straggler) 감지, 메모리 할당 패턴 분석, 통신 패턴 최적화 등의 기능을 수행합니다. * **시각화 및 UI 계층**: 복잡한 성능 데이터를 직관적인 타임라인, 히트맵, 대시보드로 변환합니다. Perfetto와 통합되어 커널 수준의 검사가 가능하며, 하드웨어 활용도가 낮은 outlier를 신속하게 식별할 수 있는 요약 정보를 제공합니다. **지능형 프로파일링 트리거 및 데이터 수집** * **자동화된 트리거**: 트레이닝 워크로드의 경우 초기 시작 시점의 노이즈를 피해 안정적인 상태인 550~555회 반복(iteration) 시점에서 자동으로 프로파일링을 수행합니다. 추론 워크로드는 온디맨드 방식이나 자동화된 부하 테스트 시스템과 연동하여 트리거됩니다. * **포괄적 데이터 캡처**: SM 활용도, 텐서 코어 가동률, GPU 메모리 대역폭 등 하위 레벨 지표뿐만 아니라 CPU, 네트워크 I/O, 스토리지 액세스 패턴을 동시에 수집하여 시스템 전반의 병목 현상을 파악합니다. * **추론 및 통신 특화 분석**: 추론 환경에서는 서버 레이턴시와 요청당 메모리 할당 패턴을 정밀 분석하며, 분산 학습 환경에서는 NCCL 집합 통신 작업과 노드 간 통신 효율성을 집중적으로 검사합니다. **실제 적용 성과 및 운영 효율화** * Zoomer는 광고 추천, 생성형 AI(GenAI), 컴퓨터 비전 등 Meta의 핵심 모델 서비스에 적용되어 매일 수만 개의 프로파일링 보고서를 생성하고 있습니다. * 성능 안티 패턴을 자동으로 감지하고 실행 가능한 최적화 권고 사항을 제공함으로써, 엔지니어가 수동으로 병목 지점을 찾는 데 드는 시간을 대폭 줄였습니다. * 불필요한 리소스 낭비를 제거하여 확보된 컴퓨팅 자원을 더 큰 모델 트레이닝이나 사용자 서비스 확대에 재투자함으로써 인프라 전반의 선순환 구조를 실현했습니다. Zoomer는 대규모 GPU 클러스터를 운영하는 조직에서 성능 튜닝을 자동화하고 표준화하는 것이 얼마나 중요한지를 보여주는 사례입니다. 인프라의 1% 효율 개선이 막대한 비용 절감과 혁신 가속화로 이어지는 만큼, Zoomer와 같은 통합 최적화 플랫폼은 생성형 AI 시대의 핵심 인프라 기술로 평가받습니다.

ai-infrastructure distributed-training gpu-optimization performance-profiling+4

google

주 기반의 확장 가능한 AI 인프 (새 탭에서 열림)

구글의 '프로젝트 선캐처(Project Suncatcher)'는 지상의 자원 제약을 넘어 AI 연산 능력을 극대화하기 위해 태양광 기반 위성 네트워크에 TPU를 탑재하는 우주 기반 AI 인프라 설계를 제안합니다. 이 프로젝트는 태양 에너지가 지상보다 월등히 효율적인 우주 환경에서 데이터 센터급 대역폭과 고성능 연산 장치를 결합하여 지속 가능하고 확장성 있는 머신러닝 인프라를 구축하는 것을 목표로 합니다. 초기 연구 결과, 초고속 광통신과 정밀한 궤도 제어, 최신 TPU의 방사선 내성 검증을 통해 이러한 야심 찬 구상이 기술적으로 실현 가능함을 확인했습니다. **우주 기반 AI 인프라의 당위성** * 지상 대비 최대 8배 높은 태양광 발전 효율과 배터리 의존도를 낮추는 일출-일몰 태양 동기 궤도(Sun-synchronous orbit)를 활용하여 전력을 거의 연속적으로 공급받을 수 있습니다. * 지구의 자원 사용을 최소화하면서도 100조 배 이상의 잠재적 에너지원을 가진 태양을 직접 활용하여 AI 학습의 규모를 확장할 수 있는 새로운 지평을 제시합니다. * 소형 위성들을 모듈식으로 연결하여 지능형 성단(Constellation)을 형성함으로써 지상 데이터 센터 수준의 성능을 구현하는 초거대 AI 클러스터를 지향합니다. **데이터 센터급 초고속 위성 간 광통신** * 대규모 머신러닝 작업을 수행하기 위해 위성 간 통신(ISL)에서 지상 데이터 센터와 대등한 수십 Tbps급 대역폭 확보가 필수적이며, 이를 위해 DWDM(고밀도 파장 분할 다중화) 및 공간 다중화 기술을 적용합니다. * 신호 감쇄 문제를 해결하기 위해 위성들을 수 킬로미터 이내의 초근접 거리에서 군집 비행시켜 전력 효율적인 링크 버젯(Link budget)을 확보하는 전략을 사용합니다. * 벤치마크 테스트 결과, 단일 송수신기 쌍으로 양방향 총 1.6 Tbps 전송 속도를 구현하는 데 성공하며 기술적 타당성을 입증했습니다. **정밀한 위성 군집 제어 및 궤도 역학** * 수백 미터 간격을 유지하는 고밀도 위성 군집을 제어하기 위해 Hill-Clohessy-Wiltshire 방정식과 JAX 기반의 미분 가능한 수치 모델을 결합하여 정밀한 물리 시뮬레이션을 수행했습니다. * 지구의 비구형 중력장과 대기 항력 등 궤도에 영향을 주는 섭동 요인을 계산한 결과, 최소한의 기동만으로도 안정적인 태양 동기 궤도 유지가 가능함을 확인했습니다. * 81개의 위성으로 구성된 클러스터 모델링을 통해 위성 간 충돌 없이 밀집 대형을 유지하며 지속적인 통신 연결성을 확보할 수 있음을 보여주었습니다. **TPU의 우주 환경 내구성 및 안정성** * 구글의 6세대 Cloud TPU인 '트릴리움(Trillium)'을 대상으로 67MeV 양성자 빔 조사를 실시하여 우주 방사선에 의한 총 이온화 선량(TID) 및 단일 사건 효과(SEE)를 테스트했습니다. * 우주 환경에서 머신러닝 가속기가 안정적으로 작동할 수 있는지에 대한 초기 실험 결과는 긍정적이며, 이는 상용 칩 기반의 우주 컴퓨팅 가능성을 시사합니다. 이 연구는 아직 초기 단계의 '문샷(Moonshot)' 프로젝트이지만, 우주라는 새로운 공간을 활용해 AI 기술의 물리적 한계를 돌파하려는 혁신적인 시도입니다. 향후 우주 기반 AI 인프라가 실현된다면 에너지 효율과 연산 성능을 획기적으로 높여 인류가 직면한 거대한 도전 과제들을 해결하는 강력한 도구가 될 것입니다.

ai-infrastructure ai machine-learning jax+5