google-cloud

8 개의 포스트

GitLab AI 해커톤 2026: 수상자를 만나보세요 (새 탭에서 열림)

GitLab AI 해커톤 2026은 단순한 코드 생성을 넘어 보안, 컴플라이언스, 배포 등 소프트웨어 개발 전 과정을 자율적으로 수행하는 600개 이상의 AI 에이전트 생태계를 확인한 자리였습니다. 구글 클라우드 및 앤스로픽(Anthropic)과 협업한 이번 행사에는 약 7,000명의 개발자가 참여하여, 실질적인 워크플로우에 통합되어 팀을 대신해 행동하는 혁신적인 솔루션들을 대거 선보였습니다. 이는 AI가 챗봇 형태를 벗어나 복잡한 엔지니어링 문제를 해결하는 능동적인 에이전트로 진화했음을 입증하는 결과입니다. ### 조직 지식 보존과 시스템 이해: LORE 및 GraphDev * **대상(Grand Prize) 수상작 'LORE'**: 8개의 에이전트와 라우터를 활용해 엔지니어의 머릿속에만 있던 '암묵적 지식'을 기록하고 관리합니다. 지식 그래프의 순환 루프 방지 로직과 탄소 추적 기능을 갖췄으며, 해커톤 프로젝트임에도 43개의 테스트 코드를 포함할 정도로 완성도가 높습니다. * **Anthropic 부문 우승작 'GraphDev'**: 코드 간의 연결 고리를 매핑하여 시스템이 시간에 따라 어떻게 변하는지 보여줍니다. 코드 변경 시 미칠 영향을 사전에 시각화하여 복잡한 시스템의 진화 과정을 쉽게 파악할 수 있도록 돕습니다. * **RepoWarden**: 코드의 기능뿐만 아니라 '왜' 그렇게 작성되었는지를 캡처하는 '리빙 스펙 엔진(Living Specification Engine)' 역할을 수행합니다. ### 보안 및 컴플라이언스 자동화 * **보안 자동화 솔루션**: 구글 클라우드 부문 우승작 'Gitdefender'는 코드 리뷰 중 보안 문제를 발견하면 즉시 수정 코드를 작성하고 리뷰를 생성합니다. 'RedAgent'는 AI가 생성한 보안 보고서를 재검증하여 AI 진단 결과에 대한 신뢰 격차를 해소합니다. * **컴플라이언스 관리**: 'Compliance Sentinel'은 머지 요청(MR)의 리스크를 점검해 위반 사항이 있으면 차단하며, 'MR Compliance Auditor'는 증거 자료를 수집해 SOC 2 통제 항목과 매핑한 후 실시간 대시보드로 송출합니다. * **SecurityMonkey**: 테스트 브랜치에 알려진 취약점을 주입하여 현재 보안 스캐너가 이를 얼마나 잘 잡아내는지 점검하는 독특한 접근 방식을 선보였습니다. ### 기술적 완성도와 운영 효율화 * **안전한 마이그레이션**: 'Time-Traveler'는 운영 환경의 복제본을 생성하여 데이터베이스 마이그레이션을 선제적으로 실행해 봄으로써 배포 실패를 방지합니다. 5개의 에이전트가 브릿지로 연결되어 실제 PostgreSQL 환경에서 작동합니다. * **모바일 기반 워크플로우**: 'stregent'는 개발자가 노트북 없이도 WhatsApp을 통해 CI/CD 파이프라인을 모니터링하고 수정 사항을 머지할 수 있는 모바일 우선 경험을 제공합니다. * **문서화 에이전트 'DocSync'**: 감지(Detector), 작성(Writer), 검토(Reviewer)라는 세 단계 에이전트 체계를 통해 문서화 작업을 자동화하며, 신뢰도가 낮을 경우 사람에게 이슈를 생성해 검토를 요청합니다. ### 지속가능성을 고려한 그린 에이전트(Green Agent) * **탄소 배출 최적화**: 'GreenPipe'와 'CarbonLint' 등은 CI/CD 파이프라인과 LLM 실행에 따른 탄소 발자국을 측정하고 보고서를 생성합니다. * **운영 비용 절감**: 일부 프로젝트는 모델 최적화와 에너지 효율적인 아키텍처 설계를 통해 운영 비용을 월 $556에서 $18로 약 96% 절감하는 성과를 거두었습니다. * **실시간 최적화 팁**: 'Carbon Tracker'는 각 파이프라인 작업의 탄소 배출량을 계산하여 머지 요청 시 최적화 팁을 자동으로 댓글로 남겨줍니다. 이제 AI 에이전트는 단순한 도구를 넘어 로컬 지식 그래프와 결합하여 코드의 맥락과 역사를 이해하는 방향으로 발전하고 있습니다. 기업들은 GitLab Duo Agent Platform과 같은 환경을 통해 보안 점검, 데이터베이스 마이그레이션, 컴플라이언스 준수와 같은 고난도 수동 작업을 자동화함으로써 엔지니어링 생산성을 획기적으로 높일 수 있을 것입니다.

AWS Interconnect 정식 출시, 라스트 마일 연결을 간소화하는 새로운 옵션 제공 | Amazon Web Services (새 탭에서 열림)

AWS는 멀티클라우드 및 하이브리드 환경의 네트워크 구축을 간소화하는 매니지드 프라이빗 연결 서비스인 'AWS Interconnect'를 정식 출시했습니다. 이 서비스는 AWS VPC를 타사 클라우드나 온프레미스 데이터 센터에 직접 연결하여, 복잡한 VPN 관리나 물리적 인프라 구성 없이도 고속의 전용 네트워크를 구축할 수 있게 해줍니다. 기업은 이를 통해 인터넷을 거치지 않는 보안 경로를 확보하고, 일관된 네트워크 성능과 높은 가용성을 바탕으로 멀티클라우드 워크로드를 운영할 수 있습니다. ### 멀티클라우드 연결의 단순화와 보안성 강화 * **매니지드 Layer 3 연결**: AWS VPC와 타사 클라우드(현재 Google Cloud 지원, 2026년 Azure 지원 예정) 간의 전용 경로를 제공하며, 모든 트래픽은 공용 인터넷이 아닌 AWS 글로벌 백본과 파트너 네트워크를 통해 이동합니다. * **기본 암호화 및 가용성**: 모든 물리적 링크에 IEEE 802.1AE MACsec 암호화가 기본 적용되어 보안성이 높으며, 두 개 이상의 물리적 시설에 논리적 링크를 분산 배치하여 하드웨어 장애 시에도 연결이 중단되지 않는 회복탄력성을 갖추고 있습니다. * **오픈 사양 협업**: AWS는 Interconnect의 기반 기술 사양을 GitHub(Apache 2.0 라이선스)에 공개하여, 다른 클라우드 서비스 제공업체들이 표준화된 방식으로 연결 서비스에 참여할 수 있도록 독려하고 있습니다. ### 라스트 마일 연결의 편의성 * **기존 네트워크 활용**: AWS Interconnect - Last mile 기능을 통해 지사나 원격 데이터 센터에서 기존 네트워크 제공업체를 이용해 AWS로의 고속 프라이빗 연결을 쉽게 설정할 수 있습니다. * **운영 부담 감소**: 코로케이션 시설 관리나 제3자 네트워크 패브릭 설정과 같은 복잡한 작업(Undifferentiated heavy lifting)을 AWS가 관리함으로써 네트워크 팀이 핵심 비즈니스 애플리케이션에 집중할 수 있도록 지원합니다. ### 모니터링 및 관리 통합 * **CloudWatch 통합**: 각 연결에는 'Network Synthetic Monitor'가 포함되어 왕복 지연 시간(Latency)과 패킷 손실을 실시간으로 추적하며, 대역폭 사용량 지표를 통해 용량 계획을 수립할 수 있습니다. * **신속한 프로비저닝**: AWS Direct Connect 콘솔에서 대상 클라우드 사업자와 지역, 대역폭을 선택한 뒤 생성된 활성화 키를 상대 클라우드 측에 입력하는 것만으로 몇 분 내에 연결을 완료할 수 있습니다. 라우팅 정보가 양방향으로 자동 전파되므로 수동 설정의 번거로움이 없습니다. 멀티클라우드 전략을 추진 중이거나 지사 환경에서 안정적인 AWS 접속 경로가 필요한 기업은 AWS Interconnect를 통해 인프라 복잡성을 획기적으로 낮출 수 있습니다. 특히 인터넷 기반 VPN의 불규칙한 성능에 노출된 워크로드를 운영 중이라면, 예측 가능한 성능과 강력한 보안을 제공하는 이 매니지드 연결 서비스를 도입하는 것을 권장합니다.

GitLab과 Google Cloud Vertex AI: 에이전틱 개발의 발전 (새 탭에서 열림)

GitLab과 Google Cloud는 GitLab Duo Agent Platform과 Vertex AI를 결합하여 소프트웨어 개발 생명주기(SDLC) 전반에 걸친 '에이전틱(Agentic) AI' 워크플로우를 본격화하고 있습니다. 이 협업은 단순한 코드 생성을 넘어 기획, 리뷰, 보안 취약점 해결까지 자동화하며, 개발팀이 기존에 정의된 Google Cloud 보안 포스처 내에서 최신 파운데이션 모델을 안전하게 활용하도록 지원합니다. 결과적으로 기업은 복잡한 AI 인프라 관리 부담 없이 통합된 DevSecOps 제어 평면 위에서 소프트웨어 전달 속도를 획기적으로 높일 수 있습니다. ## SDLC 전반을 아우르는 지능형 에이전트의 역할 단일 작업에 집중하는 기존 AI 코딩 어시스턴트와 달리, GitLab Duo Agent Platform은 전체 소프트웨어 개발 프로세스를 유기적으로 연결합니다. * **통합된 컨텍스트 활용:** 백로그, 머지 리퀘스트(MR), 파이프라인 상태, 보안 결과 등 GitLab에 축적된 SDLC 데이터를 직접 참조하여 맥락에 맞는 의사결정을 내립니다. * **특화된 에이전트 협업:** 백로그를 분석하고 에픽을 구조화된 작업으로 나누는 'Planner Agent'와 보안 취약점을 우선순위별로 분류하고 해결책을 제시하는 'Security Analyst Agent'가 협업합니다. * **에이전틱 채팅(Agentic Chat):** 개발자는 자연어 쿼리를 통해 프로젝트의 전체 상태를 기반으로 한 다단계 추론 답변을 얻을 수 있으며, 이는 파편화된 도구를 사용할 때 발생하는 수동 핸드오프 문제를 해결합니다. ## Vertex AI 기반의 모델 유연성과 확장성 GitLab Duo는 모델 유연성을 핵심 설계 원칙으로 하며, Google Cloud의 Vertex AI를 통해 고성능 모델과 인프라를 제공받습니다. * **Vertex AI Model Garden 연동:** Gemini 모델뿐만 아니라 Model Garden에서 제공하는 다양한 써드파티 및 오픈소스 모델을 선택하여 성능, 비용, 규제 요건에 최적화된 모델을 사용할 수 있습니다. * **추론 성능 및 컨텍스트 확장:** 최신 Vertex AI 모델의 긴 컨텍스트 윈도우와 강화된 도구 사용(Tool Use) 능력을 통해 대규모 모노레포 보안 리뷰나 복잡한 백로그 분석과 같은 고난도 작업을 수행합니다. * **자체 모델 도입(BYOM):** GitLab 18.9부터 지원되는 BYOM 기능을 통해 고객은 승인된 프로바이더와 게이트웨이를 직접 구성하여 기업 고유의 보안 모델 내에서 AI 에이전트를 운영할 수 있습니다. ## 기업용 거버넌스와 클라우드 경제성 확보 Google Cloud 환경에서 GitLab Duo를 사용하는 기업은 보안 관리와 비용 최적화 측면에서 강력한 이점을 얻습니다. * **표준화된 AI 제어 평면:** 여러 개의 개별 AI 도구를 관리하는 대신, Vertex AI 기반의 모델들을 GitLab 내부에서 통합 관리함으로써 섀도우 AI(Shadow AI) 발생을 억제하고 보안 정책을 일관되게 적용합니다. * **데이터 프라이버시 보호:** Google Cloud의 업계 선도적인 데이터 프라이버시 및 모델 보호 기술을 그대로 활용하여 기업의 민감한 코드가 안전하게 처리되도록 보장합니다. * **운영 효율성 강화:** 개발자가 보안 취약점 수정 제안을 확인하고 검증하는 과정을 동일한 플랫폼 내에서 처리함으로써 컨텍스트 스위칭을 줄이고, 기존 Google Cloud 계약 범위 내에서 AI 사용량을 통합 관리하여 중복 지출을 방지합니다. GitLab과 Vertex AI의 통합은 AI 인프라의 복잡성을 제거하고 개발팀이 본연의 업무인 코드 작성에만 집중할 수 있는 환경을 제공합니다. 기업은 파편화된 AI 도구 체인을 관리하는 위험에서 벗어나, 검증된 단일 시스템 오브 레코드(System of Record) 내에서 안전하고 빠르게 혁신을 가속화할 수 있습니다.

야생동물이 거니는 곳 (새 탭에서 열림)

구글 리서치가 개발하여 오픈소스로 공개한 SpeciesNet은 카메라 트랩(무인 카메라)에 포착된 야생동물을 AI로 자동 식별하는 혁신적인 도구입니다. 약 2,500종의 동물을 분류할 수 있는 이 모델은 전 세계 보존 파트너들이 제공한 650만 개의 라벨링된 이미지를 통해 학습되었으며, 연구자들이 수년이 걸릴 방대한 양의 데이터를 단 며칠 만에 분석할 수 있게 해줍니다. 현재 이 도구는 생태계 모니터링 속도를 획기적으로 높이고 멸종 위기종 보호를 위한 실시간 의사결정을 지원하며 전 세계 환경 보호 활동의 필수적인 자산으로 자리 잡았습니다. **카메라 트랩 기반의 자동화된 야생동물 모니터링** - 열이나 움직임에 의해 작동하는 카메라 트랩은 수천에서 수백만 장의 이미지를 생성하며, 이를 수동으로 분류하는 데는 막대한 시간과 인력이 소모됩니다. - SpeciesNet은 딥러닝 기술을 활용하여 이미지 내 동물의 종을 자동 식별함으로써 연구 데이터 분석 효율성을 극대화합니다. - 동물의 개체 수 건강 상태 파악, 기후 변화에 따른 이동 경로 추적, 멸종 위기종의 서식지 확인 등 근거 중심의 보존 조치를 가능하게 합니다. **SpeciesNet의 기술적 사양과 성능** - **모델 협업:** 이미지 내에서 동물이 포함된 픽셀을 먼저 찾아내는 'MegaDetector' 모델과 연동되어 작동하며, 종 이름과 함께 신뢰도(Confidence level)를 출력합니다. - **처리 능력:** 일반 노트북에서는 하루 약 3만 장, 보급형 게이밍 GPU 환경에서는 하루 25만 장 이상의 이미지를 처리할 수 있는 높은 효율성을 자랑합니다. - **학습 데이터:** CNN(합성곱 신경망) 구조를 기반으로 하며, 'Wildlife Insights' 플랫폼의 6,500만 장 이상의 검증된 이미지 데이터를 학습하여 조도나 촬영 각도가 불리한 환경에서도 높은 성능을 발휘합니다. - **정확도:** 테스트 데이터셋 기준 동물이 포함된 이미지를 찾아내는 비율은 99.4%이며, 종 수준까지 분류하는 비율은 83%, 그중 예측 정확도는 94.5%에 달합니다. **전 세계 연구 현장의 적용 사례** - **탄자니아 세렝게티:** 2010년부터 축적된 1,100만 장의 이미지를 현장에서 단 며칠 만에 분석하여, 동물의 출현 패턴에 따라 카메라를 실시간으로 재배치하는 등 유연한 연구를 지원합니다. - **호주(WildObs):** 오픈소스 특성을 활용해 호주 특유의 종인 사향쥐캥거루 등을 식별할 수 있도록 모델을 지역 맞춤형으로 재학습시켜 사용하고 있습니다. - **미국 아이다호:** 주 정부 야생동물국(IDFG)의 업무 흐름에 SpeciesNet을 통합하여 곰, 사슴, 엘크 등 산림 지역 동물의 모니터링 속도를 높이고 인간의 검증 단계를 대폭 단축했습니다. - **플랫폼 확장성:** Animl(웹 플랫폼), AddaxAI(데스크톱 도구) 등 다양한 공공 및 민간 플랫폼에 통합되어 생태학자들이 자신의 컴퓨터에서 직접 AI 모델을 실행할 수 있는 환경을 제공합니다. SpeciesNet은 구글 어스 AI(Google Earth AI) 프로젝트의 일환으로, 대규모 환경 데이터와 실행 가능한 보존 통찰력 사이의 간극을 메우고 있습니다. 방대한 이미지 데이터를 처리해야 하는 연구 기관이나 개인 활동가는 Wildlife Insights 클라우드 플랫폼을 활용하거나 SpeciesNet 오픈소스를 직접 다운로드하여 로컬 워크플로우에 통합함으로써, 단순 반복 작업인 라벨링 시간을 줄이고 본연의 생태 분석 및 보호 활동에 집중할 것을 권장합니다.

GitLab을 이용한 Google Agent Engine으로의 안전하고 빠른 배포 (새 탭에서 열림)

Google의 AI 에이전트 전용 관리형 런타임인 'Agent Engine'에 GitLab CI/CD를 활용하여 안전하고 효율적으로 배포하는 방법을 안내합니다. GitLab의 네이티브 Google Cloud 통합과 워크로드 아이덴티티 페더레이션(Workload Identity Federation) 기술을 활용하면 복잡한 인프라 관리 없이 보안이 강화된 자동 배포 환경을 구축할 수 있습니다. 이를 통해 개발자는 서버 관리나 보안 설정의 번거로움에서 벗어나 에이전트 로직 개발에만 집중할 수 있는 최적화된 DevSecOps 워크플로우를 확보하게 됩니다. **Agent Engine의 역할과 가치** * AI 에이전트를 위해 설계된 Google Cloud의 관리형 런타임으로, 인프라의 구축, 확장, 세션 관리 및 메모리 저장소를 자동으로 처리합니다. * 개발자가 하위 인프라를 직접 관리할 필요가 없으며, Google Cloud의 로깅, 모니터링, IAM(ID 및 액세스 관리) 시스템과 네이티브하게 통합됩니다. * 에이전트가 운영 환경에서 안정적으로 실행되고 확장될 수 있는 최적화된 환경을 제공합니다. **GitLab을 통한 배포의 보안 및 효율성** * **내장 보안 스캐닝:** 별도의 구성 없이도 의존성 스캐닝, SAST(정적 애플리케이션 보안 테스트), 비밀 정보 탐지 등의 보안 검사가 배포 과정에서 자동으로 수행됩니다. * **키리스(Keyless) 인증:** 워크로드 아이덴티티 페더레이션을 사용하여 서비스 계정 키 파일 없이 Google Cloud에 인증하므로, 키 유출로 인한 보안 위험을 근본적으로 제거합니다. * **파이프라인 간소화:** GitLab의 CI/CD 템플릿과 Agent Development Kit(ADK)를 결합하여 복잡한 배포 로직을 체계적으로 관리할 수 있습니다. **IAM 통합 및 환경 설정** * GitLab 프로젝트의 통합 설정에서 Google Cloud 프로젝트 ID, 워크로드 아이덴티티 풀 ID 등을 입력하여 플랫폼 간 신뢰 관계를 구축합니다. * 배포를 위해 서비스 주체(Service Principal)에 `roles/aiplatform.user`와 `roles/storage.objectAdmin` 권한을 반드시 부여해야 합니다. * 이 설정 과정을 통해 생성된 스크립트를 Google Cloud Shell에서 실행함으로써 안전한 인증 기반을 마련합니다. **CI/CD 파이프라인 구성 및 실행** * `.gitlab-ci.yml` 파일을 통해 테스트(보안 스캔)와 배포(Deploy) 두 단계로 구성된 파이프라인을 정의합니다. * 배포 단계에서는 `identity: google_cloud` 지시어를 사용하여 키리스 인증을 활성화하고, ADK CLI의 `adk deploy agent_engine` 명령어를 사용하여 에이전트를 패키징 및 배포합니다. * 파이프라인 캐싱 기능을 활용하여 pip 의존성 설치 속도를 높이고 전체적인 배포 사이클을 단축합니다. **실용적인 결론** AI 에이전트의 배포와 운영에서 가장 큰 걸림돌은 보안 설정과 인프라 관리입니다. GitLab과 Google Agent Engine을 결합한 이 방식은 보안 스캔을 자동화하고 인증 과정을 간소화함으로써, 엔터프라이즈 급의 안전성을 유지하면서도 배포 속도를 획기적으로 높일 수 있는 최선의 선택이 될 것입니다.

Delivering the Future: 글로벌 해커톤 2025, 준비부터 운영까지 | 우아한형제들 기술블로그 (새 탭에서 열림)

딜리버리히어로 산하 전 세계 7개 엔티티의 기술직군 구성원들이 참여한 ‘글로벌 해커톤 2025’는 글로벌 기술 인재들을 하나로 연결하고 미래의 고객 경험을 혁신하기 위해 개최되었습니다. 우아한형제들 DR팀은 이번 행사의 오거나이저로서 한국에서의 커뮤니티 운영 노하우를 발휘해 서로 다른 시차와 환경을 가진 팀들이 기술적으로 협업할 수 있는 온·오프라인 하이브리드 환경을 구축했습니다. 이를 통해 전 세계 270여 명의 참가자는 구글 클라우드 등 최신 기술 스택을 활용하여 비즈니스 아이디어를 실현하며 글로벌 기술 시너지를 확인했습니다. **글로벌 협업을 위한 행사 기획과 소통 구조** * 전 세계 70여 개국에 퍼져 있는 구성원들의 참여를 독려하기 위해 각국의 공휴일과 휴가 시즌을 면밀히 분석하여 가장 참여도가 높을 것으로 예상되는 일정을 확정했습니다. * 물리적 거리의 한계를 극복하고자 각 엔티티 오피스를 '베이스캠프'로 지정해 오프라인의 몰입감을 유지하는 동시에, 라이브 중계와 온라인 채널을 연계해 전 세계를 실시간으로 연결했습니다. * 시간대 차이로 발생하는 소통의 병목 현상을 해결하기 위해 정기 회의 대신 엔티티별 개별 미팅을 진행하고, 표준화된 가이드 문서와 체크리스트를 배포하여 운영 효율성을 높였습니다. **규제와 실험의 자유를 고려한 기술 환경 구축** * 참가자들이 GCP, AWS, ML 모델 등 각자 익숙한 기술 스택을 자유롭게 활용하면서도, GDPR(EU 일반 개인정보 보호 규정)과 같은 엄격한 글로벌 보안 및 컴플라이언스 규정을 준수하도록 인프라를 설계했습니다. * 딜리버리히어로 중앙 조직이 직접 조율한 공통 기술 가이드를 마련하여 리소스 제공 범위와 데이터 접근 절차를 명확히 규정함으로써 기술적 파편화를 방지했습니다. * 구글 클라우드와의 파트너십을 통해 Google AI 기반 환경을 폭넓게 제공하여, 참가자들이 실제 현업 환경과 유사한 조건에서 고도화된 기술적 실험을 수행할 수 있도록 지원했습니다. **현지 운영과 글로벌 네트워크의 확장** * 근무 형태가 서로 다른 엔티티들이 같은 도시 내 오피스를 개방하고 공유하도록 독려하여, 소속에 관계없이 글로벌 구성원들이 자연스럽게 섞여 협업할 수 있는 분위기를 조성했습니다. * 각 엔티티의 CTO와 CPO가 예선 심사에 직접 참여하고, 딜리버리히어로 글로벌 CTO 및 구글 클라우드 디렉터가 최종 심사를 맡아 프로젝트의 비즈니스 가치와 기술적 완성도를 다각도로 검증했습니다. * 수상 팀에게는 상금과 함께 미국에서 열리는 'Google Cloud Next 2026' 참가 기회를 제공하여 해커톤 이후에도 기술적 성장이 이어질 수 있는 동기를 부여했습니다. 이번 글로벌 해커톤은 거대한 조직 규모와 지리적 제약 속에서도 공통의 기술 가이드와 명확한 운영 원칙이 있다면 전 세계 엔지니어들이 하나의 팀처럼 혁신을 만들어낼 수 있음을 보여주었습니다. 서로 다른 배경을 가진 개발자들이 기술로 소통하며 시너지를 내는 과정은 글로벌 기술 기업으로서의 결속력을 다지는 중요한 발판이 됩니다.

단 몇 개의 예시만으로 (새 탭에서 열림)

구글 연구진은 대규모 언어 모델인 제미나이(Gemini)에 설문당 단 15개의 주석이 달린 예시만을 학습시키는 '소수 샷 학습(Few-shot Learning)'을 통해, 초신성과 같은 우주 현상을 93%의 정확도로 분류하는 전문가급 천문학 어시스턴트를 개발했습니다. 이 모델은 단순히 '진짜' 혹은 '가짜' 신호를 구분하는 것을 넘어, 자신의 판단 근거를 일상 언어로 설명함으로써 기존 머신러닝 모델의 '블랙박스' 문제를 해결했습니다. 이러한 연구 결과는 매일 밤 수천만 개의 알림이 발생하는 차세대 천문 관측 시대에 과학자들이 데이터를 효율적으로 검증하고 신뢰할 수 있는 협업 도구로 활용될 가능성을 보여줍니다. **기존 천문학 데이터 처리의 병목 현상** * 현대 천문학 관측 장비는 매일 밤 수백만 개의 신호를 생성하지만, 이 중 대다수는 위성 궤적이나 노이즈 같은 가짜 신호(bogus)입니다. * 기존에는 컨볼루션 신경망(CNN) 같은 특화된 모델을 사용해 왔으나, 판단 근거를 설명하지 못하는 '블랙박스' 구조라는 한계가 있었습니다. * 베라 C. 루빈 천문대와 같은 차세대 망원경이 가동되면 매일 밤 1,000만 개의 알림이 쏟아질 예정이어서, 과학자들이 일일이 수동으로 확인하는 것은 불가능에 가깝습니다. **소수 샷 학습을 통한 다중 양식 모델의 진화** * 수백만 개의 데이터로 학습시키는 대신, Pan-STARRS, MeerLICHT, ATLAS 등 세 가지 주요 천문 조사 데이터에서 각각 15개의 예시만 사용했습니다. * 각 학습 예시는 새로운 이미지, 과거의 참조 이미지, 두 이미지의 차이를 보여주는 차분 이미지와 함께 전문가의 주석 및 관심도 점수로 구성되었습니다. * 제미나이는 망원경마다 다른 해상도와 픽셀 스케일에도 불구하고, 최소한의 정보만으로 서로 다른 천문 관측 환경의 데이터를 일반화하여 처리하는 능력을 보여주었습니다. **설명 가능한 AI와 전문가 수준의 정확도** * 제미나이는 특화된 CNN 모델과 대등한 93%의 평균 정확도를 기록하며 우주 이벤트를 분류해냈습니다. * 모델은 레이블뿐만 아니라 관찰된 특징을 설명하는 텍스트와 후속 관측 우선순위를 정할 수 있는 관심도 점수(0~5점)를 함께 생성합니다. * 12명의 전문 천문학자 패널이 검토한 결과, 모델의 설명은 논리적 일관성이 매우 높았으며 실제 전문가의 추론 방식과 일치함을 확인했습니다. **모델의 자가 불확실성 평가 능력** * 모델이 스스로 자신의 설명에 대해 '일관성 점수(coherence score)'를 매기도록 유도하는 중요한 발견을 했습니다. * 일관성 점수가 낮게 측정된 경우 실제 오분류일 확률이 높다는 사실이 밝혀졌으며, 이는 모델이 스스로 언제 오류를 범할지 판단할 수 있음을 의미합니다. * 이러한 자가 진단 기능은 과학자들이 어떤 데이터를 추가로 정밀 검토해야 하는지 판단하는 데 결정적인 도움을 줍니다. 이번 연구는 범용 멀티모달 모델이 최소한의 가이드라인만으로도 고도의 전문 과학 영역에서 블랙박스 없는 투명한 파트너가 될 수 있음을 입증했습니다. 천문학자들은 이제 방대한 데이터 속에서 유망한 후보를 찾기 위해 모델과 대화하며 추론 과정을 검토할 수 있으며, 이는 향후 대규모 데이터가 쏟아지는 모든 과학 연구 분야에 중요한 이정표가 될 것입니다.

2023-03-08 incident: A deep dive into the platform-level recovery (새 탭에서 열림)

Datadog은 2023년 3월 시스템 패치 오류로 인해 전체 컴퓨팅 용량의 60%를 상실하는 대규모 장애를 겪었으며, 이를 해결하기 위해 EU1 리전을 중심으로 계층적 클러스터 복구 전략을 실행했습니다. 복구 과정에서 쿠버네티스의 부모-자식(Parent-Child) 구조를 활용한 순차적 재부팅을 통해 제어 평면과 워크로드를 정상화했으나, 이후 데이터 백로그 처리를 위한 급격한 확장 단계에서 클라우드 인프라의 물리적 한계에 부딪히기도 했습니다. 결과적으로 이번 사례는 복구 우선순위 설정과 클라우드 공급자의 서비스 임계치 이해가 대규모 인프라 운영에 얼마나 중요한지를 보여줍니다. ## 쿠버네티스 클러스터 계층 구조와 복구 전략 Datadog은 관리 효율성을 위해 쿠버네티스 클러스터 간의 엄격한 계층 구조를 운영하고 있으며, 이는 복구 순서를 결정하는 핵심 요인이 되었습니다. * **부모(Parent) 클러스터**: 각 리전에 존재하며, 다른 클러스터(자식)의 제어 평면(Control Plane) 구성 요소를 파드(Pod) 형태로 호스팅합니다. 부모 클러스터 자체의 제어 평면은 가상 머신(VM)에서 직접 실행됩니다. * **자식(Child) 클러스터**: 실제 Datadog 애플리케이션 워크로드가 실행되는 곳이며, 이들의 제어 평면은 부모 클러스터의 워커 노드 위에서 돌아갑니다. * **복구 메커니즘**: Ubuntu 22.04 패치로 인해 네트워크가 단절된 노드들은 재부팅을 통해 복구가 가능했습니다. 하지만 제어 평면에 접근할 수 없는 상태였기에 가시성 확보와 복구 작업에 초기 난항을 겪었습니다. ## 단계별 클러스터 복구 프로세스 인프라의 의존성을 고려하여 부모 클러스터에서 자식 클러스터 순으로 엄격한 순서에 따라 복구가 진행되었습니다. * **부모 제어 평면 복구 (08:45 UTC 완료)**: 가장 먼저 부모 클러스터의 제어 평면 노드들을 재부팅하여 시스템의 뿌리를 정상화했습니다. * **자식 제어 평면 복구 (09:30 UTC 완료)**: 부모 클러스터 노드 위에서 실행 중인 자식 클러스터용 제어 평면 서비스들을 복구하여 애플리케이션 노드들을 관리할 수 있는 상태로 만들었습니다. * **애플리케이션 노드 복구 (12:05 UTC 완료)**: 수십 개의 클러스터에 퍼져 있는 수천 개의 인스턴스를 재부팅했습니다. 제어 평면의 과부하를 방지하기 위해 워크로드의 중요도에 따라 순차적으로 진행되었습니다. ## 확장 단계에서의 기술적 제약 사항 클러스터 자체는 복구되었으나, 장애 기간 동안 쌓인 데이터 백로그를 처리하기 위해 인프라를 확장하는 과정에서 예상치 못한 한계에 직면했습니다. * **GCP 피어링 그룹 인스턴스 제한**: 백로그 처리를 위해 인스턴스를 늘리던 중, 구글 클라우드(GCP)의 VPC 피어링 그룹당 최대 인스턴스 제한인 15,500개에 도달하여 확장이 중단되었습니다. 이는 문서화된 제한이었으나 극한의 상황에서 임계치에 도달하며 복구를 지연시켰습니다. * **서브넷 IP 주소 고갈**: 로그 및 트레이스 처리를 담당하는 특정 클러스터들이 평상시의 2배 이상으로 오토스케일링을 시도하면서 할당된 서브넷의 IP 주소가 모두 소진되었습니다. * **대응 결과**: Google Cloud 팀의 긴급 지원을 통해 피어링 제한을 상향 조정하고, 리소스 우선순위를 재조정함으로써 대규모 백로그 처리 능력을 확보할 수 있었습니다. 대규모 인프라 장애 복구 시에는 구성 요소 간의 의존성을 명확히 파악하여 복구 순서를 정의하는 것이 필수적입니다. 또한, 평상시에는 도달하기 어려운 클라우드 서비스의 논리적/물리적 임계치(Quota)를 재해 복구 시나리오에 포함하여 확장성 계획을 수립해야 합니다.