Hack Week 2025: How these engineers liquid-cooled a GPU server (새 탭에서 열림)
드롭박스의 엔지니어링 팀은 2025년 해킹 위크(Hack Week)를 통해 차세대 AI 워크로드를 지원하기 위한 맞춤형 수냉식 GPU 서버 냉각 시스템을 성공적으로 구축했습니다. 실험 결과, 수냉식 시스템은 극한의 부하 상황에서도 공랭식 대비 온도를 20~30°C 낮추는 뛰어난 성능을 보였으며, 소음 감소와 에너지 효율성 측면에서도 유의미한 이점을 증명했습니다. 이번 프로젝트는 전력 소비가 급격히 증가하는 미래형 GPU 서버를 안정적으로 운영하기 위한 인프라 전략의 핵심 기반이 될 것으로 보입니다. ### 맞춤형 수냉 시스템의 설계와 구축 * 기성품 시스템을 기다리는 대신 라디에이터, 팬, 펌프, 저장조(Reservoir), 튜브, 매니폴드 등 핵심 부품을 직접 조립하여 데이터 센터 규모의 냉각 설비를 축소 모델로 구현했습니다. * 고가의 GPU를 연결하기 전, 시스템의 정상 작동 여부와 유량 및 압력을 실시간으로 모니터링하기 위해 정밀 센서를 통합하여 안전성을 확보했습니다. * 드롭박스 대시(Dropbox Dash)와 같은 AI 서비스 확대로 인해 급증하는 GPU 수요를 감당하기 위해 기존 공랭식 인프라의 한계를 극복하는 데 집중했습니다. ### 열 성능 관찰 및 냉각 효율성 극대화 * 부하 테스트 결과, 액체 냉각 시스템을 적용했을 때 GPU 운영 온도가 기존 공랭 시스템보다 20~30°C 낮게 유지되는 것을 확인했습니다. * CPU와 GPU의 열을 액체가 직접 흡수함에 따라, 서버 내 대형 팬의 속도를 줄이거나 아예 제거할 수 있어 전력 소비를 줄이고 소음을 획기적으로 낮추었습니다. * 액체 냉각이 적용되지 않는 메모리(DIMM)나 네트워크 카드(NIC)를 위해 공기 흐름을 정밀하게 유도하는 배플(Baffle)을 설계하여 서버 내부 전반의 냉각 효율을 최적화했습니다. ### 차세대 AI 인프라를 위한 전략적 가치 * 최신 고성능 GPU는 전력 소비량이 막대하여 조만간 공랭식으로는 중급형 모델까지만 지원 가능할 것으로 예상되며, 최상위 모델 운영을 위해 수냉식 전환은 필수적입니다. * 수냉식 솔루션을 도입하면 서버 간 간격을 좁힐 수 있어, 데이터 센터의 상면적(Footprint)을 효율적으로 사용하면서도 더 높은 컴퓨팅 밀도를 확보할 수 있습니다. * 이번 프로젝트는 단순히 기술적 호기심을 넘어, 향후 고사양 하드웨어가 도입될 때 즉시 적용 가능한 물리적 인프라 기반과 운영 노하우를 선제적으로 마련했다는 데 의의가 있습니다. 이러한 실험적 성과는 AI 기술이 드롭박스의 핵심 서비스로 자리 잡음에 따라 인프라 팀이 직면할 전력 및 발열 문제를 해결하는 이정표가 될 것입니다. 엔지니어들은 향후 여러 데이터 센터에 수냉식 실험실을 확장하여 더 방대한 환경에서의 안정성을 지속적으로 검증할 계획입니다.