ai-infrastructure

6 개의 포스트

프로메테우스 구축: 백엔 (새 탭에서 열림)

Meta는 기가와트(GW)급 규모의 AI 클러스터인 '프로메테우스(Prometheus)'를 구축하기 위해 백엔드 집선(Backend Aggregation, 이하 BAG) 기술을 핵심 아키텍처로 도입했습니다. BAG는 수만 개의 GPU를 여러 데이터 센터와 지역에 걸쳐 원활하게 연결하는 이더넷 기반의 슈퍼 스파인(Super Spine) 네트워크 계층입니다. 이를 통해 Meta는 페타비트(Pbps)급의 대역폭을 확보하고, 서로 다른 네트워크 패브릭 간의 유연한 통합과 높은 신뢰성을 구현하여 차세대 AI 인프라의 토대를 마련했습니다. ### BAG의 역할과 네트워크 구조 * **중앙 집중식 연결**: 여러 데이터 센터와 지역에 분산된 스파인 패브릭을 하나로 묶는 슈퍼 스파인 역할을 수행하며, 지역 간 16~48 Pbps에 달하는 초대용량 대역폭을 지원합니다. * **하이브리드 패브릭 통합**: 스케줄링 방식의 DSF(Disaggregated Schedule Fabric)와 비스케줄링 방식의 NSF(Non-Scheduled Fabric)라는 두 가지 서로 다른 L2 네트워크 기술을 BAG 계층에서 안정적으로 통합합니다. * **토폴로지 전략**: 관리 효율성을 강조한 평면(Planar) 토폴로지와 경로 다양성을 통해 회복 탄력성을 높인 분산(Spread) 연결 토폴로지를 사이트 규모와 광케이블 가용성에 따라 선택적으로 운용합니다. ### 하드웨어 사양 및 라우팅 최적화 * **고성능 ASIC 활용**: 최대 432개의 800G 포트를 제공하는 Jericho3(J3) ASIC 기반 모듈형 샤시를 채택하여 확장성과 대역폭 요구사항을 충족합니다. * **지능형 부하 분산**: eBGP와 링크 대역폭 속성을 활용한 UCMP(Unequal Cost Multipath) 라우팅을 통해 효율적인 트래픽 분산과 신속한 장애 복구 기능을 제공합니다. * **보안 아키텍처**: 지역 간을 잇는 BAG-to-BAG 연결에는 MACsec 암호화를 적용하여 대규모 네트워크 인프라의 보안성을 강화했습니다. ### 장애 대응 및 성능 유지 기술 * **딥 버퍼(Deep Buffer) 도입**: 지역 간 장거리 연결에서 발생하는 지연과 혼잡을 관리하기 위해 딥 버퍼 스위치를 사용하여 PFC(Priority Flow Control) 기반의 무손실 전송을 지원합니다. * **오버서브스크립션 관리**: L2 계층에서 BAG로 이어지는 구간의 오버서브스크립션 비율을 약 4.5:1 수준으로 정밀하게 제어하여 규모 확장과 성능 유지 사이의 균형을 맞춥니다. * **가용성 극대화**: 포트 스트라이핑(Port Striping) 및 조건부 경로 요약 기술을 통해 특정 구간 장애 시 데이터가 유실되는 블랙홀링(Blackholing) 현상을 방지합니다. ### 실용적인 결론 단일 데이터 센터를 넘어 수만 개의 GPU를 연결하는 기가와트급 AI 클러스터를 설계할 때는 물리적 거리에 따른 지연과 대역폭 병목을 해결하는 것이 최우선 과제입니다. Meta의 BAG 사례처럼 딥 버퍼 스위치와 고성능 ASIC을 결합한 계층형 집선 구조를 도입하고, 네트워크 상황에 맞는 유연한 토폴로지를 설계하는 것이 미래 AI 인프라의 확장성을 결정짓는 핵심 요소가 될 것입니다.

Kanana-2 개발기 (1): Pre-training에서의 의사결정들을 중심으로 (새 탭에서 열림)

카카오는 전문가 혼합(MoE) 아키텍처를 적용하여 추론 효율을 극대화한 'Kanana-2' 모델 시리즈를 공개하고, 이를 확장한 155B 규모의 대형 모델 학습 과정과 기술적 노하우를 공유했습니다. 이번 개발의 핵심은 Muon 옵티마이저와 MuonClip 등의 최신 기술을 도입하여 대규모 학습의 안정성을 확보하고 비용 효율성을 높인 데 있습니다. 특히 한국어 LLM 생태계의 연구 기반을 넓히기 위해 합성 데이터가 포함되지 않은 순수 베이스 모델을 공개함으로써 지속 가능한 AI 연구 환경 구축을 목표로 합니다. **전문가 혼합(MoE) 아키텍처와 효율성** * 전체 32B 파라미터 중 추론 시에는 3B만 활성화하도록 설계하여, 거대 모델의 지능을 유지하면서도 연산 비용을 획기적으로 낮췄습니다. * MoE 학습에 필수적인 커널들을 직접 개발하여 적용함으로써 성능 손실 없이 학습 속도를 높이고 메모리 사용량을 줄였습니다. * 현재 학습 중인 155B 모델(활성 17B)은 8.9T 토큰 학습만으로도 MMLU, KMMLU 등 주요 벤치마크에서 글로벌 경쟁 모델 대비 우수한 성능을 입증하고 있습니다. **연구를 위한 통제된 테스트베드 구축** * 'Kanana-2-30b-a3b-base-2601' 모델은 성능 향상을 유도하는 합성 추론(Reasoning) 데이터를 의도적으로 배제하고 학습되었습니다. * 이는 미세 조정이나 강화 학습 시 발생하는 데이터 불일치 현상을 연구하기 위해, 오염되지 않은 깨끗한 '베이스 모델'이 필요한 연구자들을 위한 결정입니다. * 한국어 LLM 커뮤니티가 모델의 변화 과정을 정밀하게 측정하고 추론 연구를 지속할 수 있는 기초 자산 역할을 수행합니다. **Muon 옵티마이저와 Polar Express 적용** * 기존의 AdamW를 대체하여 파라미터 업데이트 시 그라디언트를 직교화(Orthogonalize)하는 Muon 옵티마이저를 채택하여 학습 효율을 높였습니다. * 업데이트 행렬 계산 시 일반적인 Newton-Schulz 알고리즘 대신, 정확도가 더 높은 Polar Express 알고리즘을 사용해 대규모 학습 후반부의 노이즈를 줄였습니다. * RMSNorm의 파라미터화와 학습률(LR) 조정 등 세부적인 디테일을 최적화하여 수천억 규모의 모델에서도 안정적인 수렴을 달성했습니다. **MuonClip을 통한 대규모 학습 안정화** * 대형 모델 학습 시 발생하는 로짓 폭주(Logit Explosion)를 방지하기 위해 Kimi-K2에서 제안된 MuonClip 기법을 도입했습니다. * 효율적인 연산을 위해 Flash Attention 커널을 수정하여 내부의 Max Logit 값을 실시간으로 반환받아 모니터링과 클리핑에 활용했습니다. * 실험 결과, MuonClip은 높은 학습률 설정에서도 모델이 발산하지 않도록 잡아주며, 훈련이 수렴하더라도 발생할 수 있는 잠재적인 성능 저하 요인을 효과적으로 억제함을 확인했습니다. 카카오의 Kanana-2 개발 사례는 단순한 모델 공개를 넘어, 대규모 MoE 모델 학습에서 발생하는 엔지니어링 이슈를 해결하는 구체적인 방법론을 제시합니다. 특히 고성능 오픈소스 모델을 활용하려는 개발자와 연구자들에게는 효율적인 추론 구조와 더불어, 탄탄한 기초 모델을 기반으로 한 한국어 특화 AI 연구의 새로운 가능성을 제공할 것입니다.

2025년 Stripe Atlas (새 탭에서 열림)

2025년 초기 단계 스타트업들은 과거 어느 때보다 빠른 속도로 창업하고 매출을 발생시키며 폭발적인 성장세를 기록하고 있습니다. 특히 창업 30일 이내에 첫 매출을 올리는 기업 비율이 2020년 대비 두 배 이상 증가했으며, 외부 투자 유치 여부와 관계없이 실질적인 비즈니스 성과를 내는 속도가 비약적으로 향상되었습니다. **국경을 초월한 글로벌 창업 생태계의 확산** - 2025년 Stripe Atlas를 통한 창업 국가는 169개국으로 역대 최고치를 기록했으며, 특히 영국·프랑스·독일을 중심으로 한 유럽 창업자 비중이 전년 대비 48% 급증했습니다. - 원격 근무의 보편화로 공동 창업자가 서로 다른 국가에 거주하는 '다국적 창업 팀'의 비중이 2017년 대비 79% 증가하여 전체의 24%를 차지합니다. - 과거에는 내수 시장 안착 후 해외 진출을 고려했으나, 현재는 창업 초기부터 평균 2개국 이상에서 매출을 발생시키는 '본 글로벌(Born Global)' 전략이 기본값이 되었습니다. - 결제 인프라와 클라우드 기술의 발전으로 물리적 거리나 로컬 서버에 대한 의존도가 낮아지면서 글로벌 네트워크를 즉시 활용하는 환경이 조성되었습니다. **수익 창출 및 성장의 가속화** - 창업 후 30일 이내에 첫 매출을 기록하는 기업 비중이 20%에 달하며, 첫 결제까지 걸리는 시간 중앙값은 34일로 전년 대비 11% 단축되었습니다. - 창업 6개월 내에 매출 10만 달러(약 1.3억 원)를 달성하는 기업은 전년 대비 56% 증가했으며, 해당 금액 도달 기간도 121일에서 108일로 짧아졌습니다. - 상위 10% 기업의 매출 성장 폭(52%)이 하위 기업보다 훨씬 크게 나타나며 성장의 양극화가 심화되고 있지만, 시장 전체의 수익 창출 시점은 상향 평준화되는 추세입니다. - 미국 세무 식별 번호(EIN) 없이도 즉시 결제를 수락할 수 있는 인프라 개선과 고도화된 개발 도구들이 이러한 속도 향상을 뒷받침하고 있습니다. **AI 중심의 비즈니스 모델 재편** - 전체 창업 기업 중 AI 스타트업이 차지하는 비중이 2023년 15%에서 2025년 42%로 급격히 상승했습니다. - 외부 투자를 받지 않는 소규모 팀이나 LLC(유한책임회사) 형태의 창업에서도 AI 기업 비중이 22%에 달하며 AI 기술이 비즈니스 전반에 보편화되었음을 보여줍니다. - 창업자들은 초기 단계의 AI 인프라 구축보다는 실제 사용자와 맞닿아 있는 'AI 에이전트' 서비스 개발에 더 많은 역량을 집중하고 있습니다. 현대의 창업자들은 더 이상 완벽한 제품이 나올 때까지 출시를 미루지 않으며, 결제 및 규제 준수 인프라를 활용해 첫날부터 전 세계 고객을 대상으로 수익화에 나설 것을 추천합니다. 이제 글로벌 시장은 선택이 아닌 생존을 위한 필수적인 초기 전략이 되었습니다.

Zoomer: 지능형 디버 (새 탭에서 열림)

Meta는 수십만 개의 GPU를 운용하는 대규모 AI 인프라의 효율성을 극대화하기 위해 자동화된 디버깅 및 최적화 플랫폼인 **Zoomer**를 도입했습니다. Zoomer는 트레이닝과 추론 워크로드 전반에 걸쳐 심층적인 성능 인사이트를 제공하여 에너지 소비를 줄이고 워크플로우를 가속화하는 역할을 합니다. 이를 통해 Meta는 모델 트레이닝 시간을 단축하고 초당 쿼리 처리 수(QPS)를 유의미하게 개선하며 AI 인프라 최적화의 표준을 구축했습니다. **통합 분석을 위한 3계층 아키텍처** * **인프라 및 플랫폼 계층**: Meta의 블롭 스토리지 플랫폼인 Manifold를 기반으로 분산 저장 시스템을 구축하여, 수천 대의 호스트에서 발생하는 방대한 트레이스 데이터를 안정적으로 수집하고 처리합니다. * **분석 및 인사이트 엔진**: Kineto와 NVIDIA DCGM을 통한 GPU 분석, StrobeLight 기반의 CPU 프로파일링, dyno 원격 측정을 통한 호스트 지표 분석을 결합합니다. 이를 통해 분산 학습 시 발생하는 스트래글러(straggler) 감지, 메모리 할당 패턴 분석, 통신 패턴 최적화 등의 기능을 수행합니다. * **시각화 및 UI 계층**: 복잡한 성능 데이터를 직관적인 타임라인, 히트맵, 대시보드로 변환합니다. Perfetto와 통합되어 커널 수준의 검사가 가능하며, 하드웨어 활용도가 낮은 outlier를 신속하게 식별할 수 있는 요약 정보를 제공합니다. **지능형 프로파일링 트리거 및 데이터 수집** * **자동화된 트리거**: 트레이닝 워크로드의 경우 초기 시작 시점의 노이즈를 피해 안정적인 상태인 550~555회 반복(iteration) 시점에서 자동으로 프로파일링을 수행합니다. 추론 워크로드는 온디맨드 방식이나 자동화된 부하 테스트 시스템과 연동하여 트리거됩니다. * **포괄적 데이터 캡처**: SM 활용도, 텐서 코어 가동률, GPU 메모리 대역폭 등 하위 레벨 지표뿐만 아니라 CPU, 네트워크 I/O, 스토리지 액세스 패턴을 동시에 수집하여 시스템 전반의 병목 현상을 파악합니다. * **추론 및 통신 특화 분석**: 추론 환경에서는 서버 레이턴시와 요청당 메모리 할당 패턴을 정밀 분석하며, 분산 학습 환경에서는 NCCL 집합 통신 작업과 노드 간 통신 효율성을 집중적으로 검사합니다. **실제 적용 성과 및 운영 효율화** * Zoomer는 광고 추천, 생성형 AI(GenAI), 컴퓨터 비전 등 Meta의 핵심 모델 서비스에 적용되어 매일 수만 개의 프로파일링 보고서를 생성하고 있습니다. * 성능 안티 패턴을 자동으로 감지하고 실행 가능한 최적화 권고 사항을 제공함으로써, 엔지니어가 수동으로 병목 지점을 찾는 데 드는 시간을 대폭 줄였습니다. * 불필요한 리소스 낭비를 제거하여 확보된 컴퓨팅 자원을 더 큰 모델 트레이닝이나 사용자 서비스 확대에 재투자함으로써 인프라 전반의 선순환 구조를 실현했습니다. Zoomer는 대규모 GPU 클러스터를 운영하는 조직에서 성능 튜닝을 자동화하고 표준화하는 것이 얼마나 중요한지를 보여주는 사례입니다. 인프라의 1% 효율 개선이 막대한 비용 절감과 혁신 가속화로 이어지는 만큼, Zoomer와 같은 통합 최적화 플랫폼은 생성형 AI 시대의 핵심 인프라 기술로 평가받습니다.

우주 기반의 확장 가능한 AI 인 (새 탭에서 열림)

구글의 '프로젝트 선캐처(Project Suncatcher)'는 지상의 자원 제약을 넘어 AI 연산 능력을 극대화하기 위해 태양광 기반 위성 네트워크에 TPU를 탑재하는 우주 기반 AI 인프라 설계를 제안합니다. 이 프로젝트는 태양 에너지가 지상보다 월등히 효율적인 우주 환경에서 데이터 센터급 대역폭과 고성능 연산 장치를 결합하여 지속 가능하고 확장성 있는 머신러닝 인프라를 구축하는 것을 목표로 합니다. 초기 연구 결과, 초고속 광통신과 정밀한 궤도 제어, 최신 TPU의 방사선 내성 검증을 통해 이러한 야심 찬 구상이 기술적으로 실현 가능함을 확인했습니다. **우주 기반 AI 인프라의 당위성** * 지상 대비 최대 8배 높은 태양광 발전 효율과 배터리 의존도를 낮추는 일출-일몰 태양 동기 궤도(Sun-synchronous orbit)를 활용하여 전력을 거의 연속적으로 공급받을 수 있습니다. * 지구의 자원 사용을 최소화하면서도 100조 배 이상의 잠재적 에너지원을 가진 태양을 직접 활용하여 AI 학습의 규모를 확장할 수 있는 새로운 지평을 제시합니다. * 소형 위성들을 모듈식으로 연결하여 지능형 성단(Constellation)을 형성함으로써 지상 데이터 센터 수준의 성능을 구현하는 초거대 AI 클러스터를 지향합니다. **데이터 센터급 초고속 위성 간 광통신** * 대규모 머신러닝 작업을 수행하기 위해 위성 간 통신(ISL)에서 지상 데이터 센터와 대등한 수십 Tbps급 대역폭 확보가 필수적이며, 이를 위해 DWDM(고밀도 파장 분할 다중화) 및 공간 다중화 기술을 적용합니다. * 신호 감쇄 문제를 해결하기 위해 위성들을 수 킬로미터 이내의 초근접 거리에서 군집 비행시켜 전력 효율적인 링크 버젯(Link budget)을 확보하는 전략을 사용합니다. * 벤치마크 테스트 결과, 단일 송수신기 쌍으로 양방향 총 1.6 Tbps 전송 속도를 구현하는 데 성공하며 기술적 타당성을 입증했습니다. **정밀한 위성 군집 제어 및 궤도 역학** * 수백 미터 간격을 유지하는 고밀도 위성 군집을 제어하기 위해 Hill-Clohessy-Wiltshire 방정식과 JAX 기반의 미분 가능한 수치 모델을 결합하여 정밀한 물리 시뮬레이션을 수행했습니다. * 지구의 비구형 중력장과 대기 항력 등 궤도에 영향을 주는 섭동 요인을 계산한 결과, 최소한의 기동만으로도 안정적인 태양 동기 궤도 유지가 가능함을 확인했습니다. * 81개의 위성으로 구성된 클러스터 모델링을 통해 위성 간 충돌 없이 밀집 대형을 유지하며 지속적인 통신 연결성을 확보할 수 있음을 보여주었습니다. **TPU의 우주 환경 내구성 및 안정성** * 구글의 6세대 Cloud TPU인 '트릴리움(Trillium)'을 대상으로 67MeV 양성자 빔 조사를 실시하여 우주 방사선에 의한 총 이온화 선량(TID) 및 단일 사건 효과(SEE)를 테스트했습니다. * 우주 환경에서 머신러닝 가속기가 안정적으로 작동할 수 있는지에 대한 초기 실험 결과는 긍정적이며, 이는 상용 칩 기반의 우주 컴퓨팅 가능성을 시사합니다. 이 연구는 아직 초기 단계의 '문샷(Moonshot)' 프로젝트이지만, 우주라는 새로운 공간을 활용해 AI 기술의 물리적 한계를 돌파하려는 혁신적인 시도입니다. 향후 우주 기반 AI 인프라가 실현된다면 에너지 효율과 연산 성능을 획기적으로 높여 인류가 직면한 거대한 도전 과제들을 해결하는 강력한 도구가 될 것입니다.

: 엔지니어들이 GPU 서버를 (새 탭에서 열림)

드롭박스의 엔지니어링 팀은 2025년 해킹 위크(Hack Week)를 통해 차세대 AI 워크로드를 지원하기 위한 맞춤형 수냉식 GPU 서버 냉각 시스템을 성공적으로 구축했습니다. 실험 결과, 수냉식 시스템은 극한의 부하 상황에서도 공랭식 대비 온도를 20~30°C 낮추는 뛰어난 성능을 보였으며, 소음 감소와 에너지 효율성 측면에서도 유의미한 이점을 증명했습니다. 이번 프로젝트는 전력 소비가 급격히 증가하는 미래형 GPU 서버를 안정적으로 운영하기 위한 인프라 전략의 핵심 기반이 될 것으로 보입니다. ### 맞춤형 수냉 시스템의 설계와 구축 * 기성품 시스템을 기다리는 대신 라디에이터, 팬, 펌프, 저장조(Reservoir), 튜브, 매니폴드 등 핵심 부품을 직접 조립하여 데이터 센터 규모의 냉각 설비를 축소 모델로 구현했습니다. * 고가의 GPU를 연결하기 전, 시스템의 정상 작동 여부와 유량 및 압력을 실시간으로 모니터링하기 위해 정밀 센서를 통합하여 안전성을 확보했습니다. * 드롭박스 대시(Dropbox Dash)와 같은 AI 서비스 확대로 인해 급증하는 GPU 수요를 감당하기 위해 기존 공랭식 인프라의 한계를 극복하는 데 집중했습니다. ### 열 성능 관찰 및 냉각 효율성 극대화 * 부하 테스트 결과, 액체 냉각 시스템을 적용했을 때 GPU 운영 온도가 기존 공랭 시스템보다 20~30°C 낮게 유지되는 것을 확인했습니다. * CPU와 GPU의 열을 액체가 직접 흡수함에 따라, 서버 내 대형 팬의 속도를 줄이거나 아예 제거할 수 있어 전력 소비를 줄이고 소음을 획기적으로 낮추었습니다. * 액체 냉각이 적용되지 않는 메모리(DIMM)나 네트워크 카드(NIC)를 위해 공기 흐름을 정밀하게 유도하는 배플(Baffle)을 설계하여 서버 내부 전반의 냉각 효율을 최적화했습니다. ### 차세대 AI 인프라를 위한 전략적 가치 * 최신 고성능 GPU는 전력 소비량이 막대하여 조만간 공랭식으로는 중급형 모델까지만 지원 가능할 것으로 예상되며, 최상위 모델 운영을 위해 수냉식 전환은 필수적입니다. * 수냉식 솔루션을 도입하면 서버 간 간격을 좁힐 수 있어, 데이터 센터의 상면적(Footprint)을 효율적으로 사용하면서도 더 높은 컴퓨팅 밀도를 확보할 수 있습니다. * 이번 프로젝트는 단순히 기술적 호기심을 넘어, 향후 고사양 하드웨어가 도입될 때 즉시 적용 가능한 물리적 인프라 기반과 운영 노하우를 선제적으로 마련했다는 데 의의가 있습니다. 이러한 실험적 성과는 AI 기술이 드롭박스의 핵심 서비스로 자리 잡음에 따라 인프라 팀이 직면할 전력 및 발열 문제를 해결하는 이정표가 될 것입니다. 엔지니어들은 향후 여러 데이터 센터에 수냉식 실험실을 확장하여 더 방대한 환경에서의 안정성을 지속적으로 검증할 계획입니다.