gpu-computing

2 개의 포스트

AWS 주간 요약: Amazon EC2 G7e 인스턴스, Amazon Corretto 업데이트 등 (2026년 1월 26일) | 아마존 웹 서비스 (새 탭에서 열림)

2026년 첫 AWS 주간 소식은 NVIDIA의 최신 Blackwell 아키텍처를 채택한 EC2 G7e 인스턴스의 정식 출시와 함께 시작되었습니다. 이번 업데이트는 생성형 AI 추론 성능의 비약적인 향상뿐만 아니라 개발자 도구의 보안 강화, 컨테이너 저장소의 효율성 개선 등 클라우드 운영 전반을 아우르는 주요 개선 사항들을 담고 있습니다. 이를 통해 사용자는 더 복잡한 인공지능 모델과 워크로드를 고성능 환경에서 더욱 경제적으로 실행할 수 있게 되었습니다. **NVIDIA Blackwell 기반 EC2 G7e 인스턴스 출시** * NVIDIA RTX PRO 6000 Blackwell Server Edition GPU를 탑재하여 이전 세대(G6e) 대비 추론 성능이 최대 2.3배 향상되었습니다. * 기존 대비 2배 늘어난 GPU 메모리를 제공하며, 최대 8개의 GPU 구성을 통해 총 768GB의 대용량 GPU 메모리를 활용할 수 있습니다. * FP8 정밀도를 지원하여 단일 GPU에서도 최대 700억(70B) 개의 매개변수를 가진 중형 모델을 실행할 수 있어 생성형 AI, 공간 컴퓨팅, 과학 계산 워크로드에 최적화되었습니다. **개발 도구 업데이트 및 컨테이너 스토리지 최적화** * **Amazon Corretto 분기별 업데이트**: OpenJDK LTS 버전(25, 21, 17, 11, 8)에 대한 2026년 1월 보안 및 성능 패치가 배포되어 Java 애플리케이션의 안정성을 높였습니다. * **Amazon ECR 레이어 공유 지원**: Blob 마운팅 방식을 통해 리포지토리 간 공통 이미지 레이어를 공유할 수 있게 되었습니다. 이를 통해 이미지를 업로드(Push)하는 속도를 높이고, 중복 저장을 방지하여 스토리지 비용을 절감할 수 있습니다. **운영 인사이트 및 고객 서비스 기능 강화** * **CloudWatch Database Insights 지역 확장**: 뉴질랜드, 타이베이, 태국, 멕시코 리전으로 서비스가 확대되었습니다. 머신러닝을 기반으로 데이터베이스 성능 병목 현상을 식별하고 구체적인 해결 방안을 제공합니다. * **Amazon Connect 단계별 가이드 개선**: 상담원용 가이드에 조건부 로직을 도입하여 사용자 입력에 따라 UI가 동적으로 변하도록 설정할 수 있습니다. 또한 실시간 데이터 새로고침 기능을 통해 상담원이 항상 최신 정보를 바탕으로 고객을 지원할 수 있습니다. **AWS 기술 교육 및 커뮤니티 이벤트** * **Best of AWS re:Invent (1월 28-29일)**: 작년 re:Invent의 핵심 발표와 기술 세션을 요약하여 전달하는 무료 가상 이벤트가 개최됩니다. * **AWS Community Day Ahmedabad (2월 28일)**: 인도에서 열리는 커뮤니티 중심의 컨퍼런스로, 전문가 세션과 실시간 데모를 통해 실무 지식을 공유하는 자리가 마련됩니다. 이번 업데이트 중 특히 G7e 인스턴스의 출시는 대규모 언어 모델(LLM)을 실무에 도입하려는 기업들에게 중요한 전환점이 될 것입니다. FP8 정밀도를 활용해 단일 GPU에서 70B 규모의 모델을 구동할 수 있게 된 만큼, 생성형 AI 서비스의 아키텍처 설계 시 비용과 성능의 균형을 재검토해 보시길 추천합니다.

: 엔지니어들이 GPU 서버를 (새 탭에서 열림)

드롭박스의 엔지니어링 팀은 2025년 해킹 위크(Hack Week)를 통해 차세대 AI 워크로드를 지원하기 위한 맞춤형 수냉식 GPU 서버 냉각 시스템을 성공적으로 구축했습니다. 실험 결과, 수냉식 시스템은 극한의 부하 상황에서도 공랭식 대비 온도를 20~30°C 낮추는 뛰어난 성능을 보였으며, 소음 감소와 에너지 효율성 측면에서도 유의미한 이점을 증명했습니다. 이번 프로젝트는 전력 소비가 급격히 증가하는 미래형 GPU 서버를 안정적으로 운영하기 위한 인프라 전략의 핵심 기반이 될 것으로 보입니다. ### 맞춤형 수냉 시스템의 설계와 구축 * 기성품 시스템을 기다리는 대신 라디에이터, 팬, 펌프, 저장조(Reservoir), 튜브, 매니폴드 등 핵심 부품을 직접 조립하여 데이터 센터 규모의 냉각 설비를 축소 모델로 구현했습니다. * 고가의 GPU를 연결하기 전, 시스템의 정상 작동 여부와 유량 및 압력을 실시간으로 모니터링하기 위해 정밀 센서를 통합하여 안전성을 확보했습니다. * 드롭박스 대시(Dropbox Dash)와 같은 AI 서비스 확대로 인해 급증하는 GPU 수요를 감당하기 위해 기존 공랭식 인프라의 한계를 극복하는 데 집중했습니다. ### 열 성능 관찰 및 냉각 효율성 극대화 * 부하 테스트 결과, 액체 냉각 시스템을 적용했을 때 GPU 운영 온도가 기존 공랭 시스템보다 20~30°C 낮게 유지되는 것을 확인했습니다. * CPU와 GPU의 열을 액체가 직접 흡수함에 따라, 서버 내 대형 팬의 속도를 줄이거나 아예 제거할 수 있어 전력 소비를 줄이고 소음을 획기적으로 낮추었습니다. * 액체 냉각이 적용되지 않는 메모리(DIMM)나 네트워크 카드(NIC)를 위해 공기 흐름을 정밀하게 유도하는 배플(Baffle)을 설계하여 서버 내부 전반의 냉각 효율을 최적화했습니다. ### 차세대 AI 인프라를 위한 전략적 가치 * 최신 고성능 GPU는 전력 소비량이 막대하여 조만간 공랭식으로는 중급형 모델까지만 지원 가능할 것으로 예상되며, 최상위 모델 운영을 위해 수냉식 전환은 필수적입니다. * 수냉식 솔루션을 도입하면 서버 간 간격을 좁힐 수 있어, 데이터 센터의 상면적(Footprint)을 효율적으로 사용하면서도 더 높은 컴퓨팅 밀도를 확보할 수 있습니다. * 이번 프로젝트는 단순히 기술적 호기심을 넘어, 향후 고사양 하드웨어가 도입될 때 즉시 적용 가능한 물리적 인프라 기반과 운영 노하우를 선제적으로 마련했다는 데 의의가 있습니다. 이러한 실험적 성과는 AI 기술이 드롭박스의 핵심 서비스로 자리 잡음에 따라 인프라 팀이 직면할 전력 및 발열 문제를 해결하는 이정표가 될 것입니다. 엔지니어들은 향후 여러 데이터 센터에 수냉식 실험실을 확장하여 더 방대한 환경에서의 안정성을 지속적으로 검증할 계획입니다.