cloud-computing

16 개의 포스트

Squad가 리포지토리 내에서 협업하는 AI 에이전트를 실행하는 방법 (새 탭에서 열림)

데이터베이스 설계에서 흔히 사용되는 ‘소프트 삭제(Soft Delete, 삭제 플래그 사용)’ 방식은 구현이 간편해 보이지만, 실제로는 시스템의 복잡성을 가중시키고 성능을 저해하는 안티 패턴으로 작용할 위험이 큽니다. 데이터의 이력을 관리해야 한다면 단순히 삭제 여부를 표시하는 컬럼을 추가하는 대신, 데이터베이스의 네이티브 기능인 시간 기반 테이블(Temporal Tables)이나 별도의 보관 아카이브를 활용하는 것이 데이터 무결성과 성능 측면에서 훨씬 유리합니다. **소프트 삭제가 초래하는 아키텍처의 복잡성** - 모든 조회 쿼리에 `WHERE is_deleted = 0`과 같은 필터 조건을 강제하게 되어 개발자의 실수를 유발하고 코드 유지보수 비용을 높입니다. - 소프트 삭제된 데이터가 테이블에 그대로 남아있어 고유 제약 조건(Unique Constraint)을 설정하기가 까다로워지며, 삭제된 값과 동일한 값을 재입력할 때 충돌이 발생합니다. - 외래 키(Foreign Key) 관계에서 '삭제된' 행을 참조하는 논리적 오류가 발생할 수 있어 참조 무결성을 보장하기 어렵습니다. **데이터 무결성 및 인덱스 성능 문제** - 삭제된 데이터가 인덱스에 포함되어 인덱스의 크기가 불필요하게 커지고, 이로 인해 메모리 효율성과 쿼리 스캔 성능이 점진적으로 저하됩니다. - 필터링된 인덱스(Filtered Index)를 사용하여 성능 저하를 방지할 수 있으나, 이는 데이터베이스 엔진에 추가적인 관리 부담을 주며 모든 상황의 근본적인 해결책이 되지 못합니다. - 비즈니스 로직과 데이터 보관 로직이 뒤섞이면서 데이터 모델의 의미가 모호해지는 결과가 나타납니다. **시스템 버전 관리 테이블과 트리거 기반의 대안** - SQL Server 및 Azure SQL에서 제공하는 시스템 버전 관리 테이블(Temporal Tables)을 사용하면, 애플리케이션 로직을 수정하지 않고도 삭제되거나 수정된 데이터의 과거 이

Our First 2026 Heroes Cohort Is Here! | Amazon Web Services (새 탭에서 열림)

AWS는 기술적 전문성을 넘어 전 세계 개발자 커뮤니티의 성장을 이끌고 있는 세 명의 전문가를 '2026년 첫 번째 AWS 히어로(AWS Heroes)'로 선정했습니다. 이번에 선정된 히어로는 이탈리아, 싱가포르, 파나마 출신의 리더들로, 클라우드 아키텍처, 생성형 AI, 그리고 보안 분야에서 혁신적인 지식 공유와 인재 양성에 기여한 공로를 인정받았습니다. 이들은 단순한 기술 전파를 넘어 지역사회와 글로벌 생태계를 연결하는 가교 역할을 수행하며 클라우드 문화의 확산을 주도하고 있습니다. **마우리치오(Maurizio): 지역적 한계를 넘는 클라우드 생태계 구축** - 이탈리아 바실리카타 지역의 AWS 사용자 그룹(UG) 리더이자 CTO로서, 기술 불모지에 가까웠던 산악 마을에 국제적인 기술 컨퍼런스를 설립하여 클라우드 문화를 개척했습니다. - 클라우드 아키텍처, DevOps, 웹 스케일링 등 심도 있는 기술 세션과 독창적인 네트워킹 경험을 결합하여 전 유럽의 전문가와 지역 인재를 연결하고 있습니다. - 어린이를 위한 코딩 교육부터 대학생 및 전문가를 위한 클라우드 아키텍처 전환 멘토링까지, 세대를 아우르는 지식 전수 모델을 실천하고 있습니다. **레이 고(Ray Goh): 생성형 AI 교육의 대중화와 대규모 기술 확산** - 2018년부터 AWS 커뮤니티에서 활동해온 AI 전문가로, 2024년 생성형 AI 학습 커뮤니티인 'The Gen-C'를 설립하여 LLM 파인트레이닝(fine-tuning)과 AI 에이전트 기술 보급에 앞장서고 있습니다. - DBS 은행에서 3,100명 이상의 직원을 대상으로 세계 최대 규모의 기업용 AWS DeepRacer 프로그램을 주도했으며, 2025년에는 1,300명 이상의 아세안(ASEAN) 학생들에게 LLM 기술을 교육했습니다. - 기술 공유를 넘어 여성과 청소년을 대상으로 한 AI/ML 사회공헌 활동(CSR)을 전개하며, CNBC와 유로머니(Euromoney) 등 주요 매체에 소개될 만큼 영향력 있는 리더십을 발휘하고 있습니다. **쉐일라 리콕(Sheyla Leacock): 글로벌 보안 생태계 강화와 교육적 헌신** - 파나마 AWS 사용자 그룹을 이끌며 멕시코, 라틴아메리카(LATAM), AWS re:Invent 등 글로벌 무대에서 활동하는 IT 보안 전문가이자 기술 작가입니다. - 클라우드 컴퓨팅과 사이버 보안에 관한 교육 콘텐츠를 정기적으로 발행하고, 전 세계 20개 이상의 국제 컨퍼런스에서 강연하며 보안 생태계의 전문성을 높이고 있습니다. - 여러 대학의 객원 강사로 활동하며 신규 보안 인재 양성을 지원하고, 이론과 실무를 겸비한 교육을 통해 라틴아메리카 지역의 기술 수준을 한 단계 끌어올리고 있습니다. 전 세계 곳곳에서 활동하는 AWS 히어로들의 행보는 클라우드 기술이 지역과 세대의 경계를 어떻게 허물 수 있는지 잘 보여줍니다. 각 분야의 전문성을 쌓고자 하는 개발자라면 AWS 히어로 페이지를 방문하여 거주 지역 근처의 히어로와 연결되거나, 이들이 공유하는 기술 블로그와 컨퍼런스 자료를 통해 최신 클라우드 트렌드와 보안, AI 실무 지식을 학습해 보기를 권장합니다.

머신러닝을 이용한 유방암 검진 워크플로우 개선 (새 탭에서 열림)

구글 리서치(Google Research)는 영국 NHS(국가 보건 서비스)와의 협력을 통해 유방암 검진 워크플로우에 인공지능(AI)을 통합하는 대규모 연구를 진행하였으며, 이를 통해 암 진단 정확도 향상과 의료진 업무 부담 경감 가능성을 확인했습니다. 연구 결과 AI 시스템은 기존의 이중 판독(Double-read) 시스템에서 인간 판독자를 보조하거나 대체할 수 있는 충분한 성능을 보였으며, 특히 침습성 암 및 간격암(Interval cancer) 발견에서 뛰어난 성과를 거두었습니다. 이는 전문 인력 부족 문제를 겪고 있는 의료 현장에 지속 가능한 검진 시스템을 구축할 수 있는 실무적 근거를 제시합니다. ### AI 시스템의 독립적 성능 및 간격암 탐지 능력 * **대규모 후향적 검증:** 12만 5천 명 이상의 여성을 대상으로 한 연구에서 AI 시스템은 기존 첫 번째 판독자(인간)보다 유의미하게 높은 민감도를 기록했습니다. * **암 발견율 향상:** 유방암 발견율이 여성 1,000명당 7.54건에서 9.33건으로 증가했으며, 특히 기존 방식에서 놓쳤던 간격암의 25%를 추가로 식별해 냈습니다. * **병변 국소화 정확도:** 단순히 상관관계에 의존하는 것이 아니라, 실제 이상 부위를 정확히 짚어내는 병변 수준의 분석(Lesion-level localization)을 통해 기술적 신뢰성을 확보했습니다. * **형평성 확인:** 연령, 인종, 유방 밀도, 사회경제적 지위 등 다양한 인구통계학적 변수 전반에서 성능 편향이 나타나지 않음을 확인했습니다. ### 기술적 실무 통합 및 배포 타당성 * **신속한 처리 속도:** 실제 임상 현장에서 AI 판독은 완료까지 중앙값 17.7분이 소요된 반면, 인간의 첫 번째 판독은 2일 이상 소요되어 검진 효율성을 극대화할 수 있음을 입증했습니다. * **데이터 분포 변화(Distribution Shift) 대응:** 과거 학습 데이터와 현대 임상 데이터 간의 차이를 식별함으로써, 안전한 AI 도입을 위해 현장 맞춤형 '운영 지점(Operating point)' 보정 절차가 필수적임을 확인했습니다. * **단계적 도입 전략:** 12개 검진 사이트에 비개입형(Non-interventional)으로 배포하여 기술적 통합 과정을 점검하고, 실제 워크플로우 내에서의 실현 가능성을 증명했습니다. ### 인간과 AI의 협업 모델 및 이중 판독 워크플로우 * **AI 기반 이중 판독:** 두 명의 인간이 판독하던 기존 방식 대신 '인간 1명 + AI 시스템' 조합을 제안하고, 의견 불일치 시 중재(Arbitration) 패널이 개입하는 구조를 평가했습니다. * **실제 인간-AI 상호작용 분석:** 22명의 판독자가 참여하여 수천 건의 사례를 중재하는 과정을 통해, AI의 출력이 인간의 최종 의사결정에 미치는 영향과 실제 운영 규칙 준수 여부를 연구했습니다. * **의료 인력 부족 문제 해결:** 2028년까지 예상되는 영상의학 전문의 부족 현상(약 40%)에 대비하여, AI가 판독 품질을 유지하면서도 의료진의 업무 과중을 해결할 핵심 도구가 될 수 있음을 보여주었습니다. 이 연구는 AI가 실제 임상 환경에서 효과적인 '제2 판독자' 역할을 수행할 수 있음을 강력하게 뒷받침합니다. 다만, 실무 도입 시에는 지역별 환자 군과 워크플로우 특성에 맞춘 정밀한 캘리브레이션과 단계적인 검증 과정을 거치는 것이 중요하며, 이를 통해 의료 시스템의 지속 가능성을 확보할 수 있을 것으로 권고됩니다.

행동하는 AI, 기업 통제: 자체 호스팅 듀오 에이전트 플랫폼과 BYOM (새 탭에서 열림)

GitLab 18.9 업데이트는 규제가 엄격한 산업군의 기업들이 데이터 레지던시와 거버넌스를 유지하면서도 에이전트 기반 AI(Agentic AI)를 도입할 수 있도록 '셀프 호스팅 Duo Agent Platform'과 '자체 모델 도입(BYOM)' 기능을 선보였습니다. 이번 배포를 통해 기업은 클라우드 라이선스를 사용하면서도 모델 추론은 자체 인프라에서 수행할 수 있게 되어, 보안과 유연성을 동시에 확보한 AI 컨트롤 플레인을 구축할 수 있습니다. 결과적으로 복잡한 DevSecOps 워크플로우 자동화를 강력한 규제 준수 환경 내에서 실현할 수 있게 되었습니다. **온라인 클라우드 라이선스를 위한 Duo Agent Platform 셀프 호스팅** 그동안 셀프 호스팅 모델을 통한 AI 워크플로우 자동화는 주로 오프라인이나 특정 라이선스 환경에 국한되었으나, 이제 온라인 클라우드 라이선스 고객도 이를 활용할 수 있게 되었습니다. * **데이터 레지던시 및 제어권 보장:** 기업은 자체 인프라나 승인된 클라우드 환경에 호스팅된 모델을 사용하면서 GitLab Duo Agent Platform을 운영할 수 있어, 추론 트래픽의 경로와 데이터 저장 위치를 완전히 통제할 수 있습니다. * **GitLab Credits 기반의 투명한 과금:** 사용량 기반 빌링 모델을 도입하여 각 요청별 측정(metering)이 가능해졌으며, 이를 통해 기업 내부의 비용 배분(Chargeback)과 규제 보고를 위한 상세한 비용 투명성을 제공합니다. * **규제 산업의 도입 가속화:** 외부 AI 벤더로 데이터를 전송할 수 없는 금융, 정부 기관, 주요 인프라 산업군에서 에이전트 기반 AI를 즉시 도입할 수 있는 환경을 마련했습니다. **자체 모델 도입 (Bring Your Own Model, BYOM)** 기업이 이미 투자한 특정 도메인 최적화 LLM이나 에어갭(Air-gapped) 환경의 모델을 GitLab 환경에 유연하게 통합할 수 있도록 지원합니다. * **AI Gateway를 통한 통합 거버넌스:** 기업이 보유한 서드파티 모델이나 자체 호스팅 모델을 GitLab AI Gateway에 연결하여, GitLab이 관리하는 모델과 동일한 수준의 제어 평면에서 관리할 수 있습니다. * **세분화된 모델 매핑:** 관리자는 등록된 모델을 특정 Duo Agent Platform의 흐름이나 기능에 정밀하게 매핑할 수 있어, 작업의 성격에 따라 최적화된 모델이 할당되도록 제어할 수 있습니다. * **자율적인 성능 및 위험 관리:** 모델의 유효성 검사, 성능 최적화, 위험 평가는 기업이 직접 담당하며, 이를 통해 조직의 고유한 보안 정책과 위험 수용 범위에 맞춘 모델 운용이 가능합니다. **활용 제언** 파편화된 AI 도구 사용으로 인해 거버넌스 공백을 겪고 있는 기업이라면, GitLab 18.9의 통합 컨트롤 플레인을 활용해 AI 전략을 중앙 집중화할 것을 권장합니다. 특히 특정 규제 준수가 필수적인 환경에서는 'BYOM' 기능을 통해 검증된 내부 모델을 DevSecOps 파이프라인에 직접 연결함으로써 보안 리스크를 최소화하면서도 자동화 효율을 극대화할 수 있습니다.

AWS 주간 요약: Amazon EC2 M8azn 인스턴스, Amazon Bedrock의 새로운 오픈 가중치 모델 등 (2026년 2월 16일) | 아마존 웹 서비스 (새 탭에서 열림)

AWS는 최근 고성능 컴퓨팅을 위한 Amazon EC2 M8azn 인스턴스 출시와 더불어 Amazon Bedrock에 6개의 새로운 오픈 가중치(Open weights) 모델을 추가하며 인프라와 AI 역량을 동시에 강화했습니다. 이번 업데이트는 클라우드 업계 최고 수준인 5GHz의 CPU 주파수를 제공하여 고성능 요구 워크로드를 지원하는 한편, 개발자들이 다양한 오픈 소스 모델을 OpenAI API 규격과 호환되는 환경에서 더욱 유연하게 사용할 수 있도록 돕는 데 초점을 맞추고 있습니다. 이를 통해 기업들은 실시간 금융 분석부터 복잡한 추론 및 코딩 에이전트 구축까지 더욱 폭넓은 기술 선택지를 갖게 되었습니다. ### Amazon EC2 M8azn 인스턴스 정식 출시 * **압도적인 클라우드 성능:** 5세대 AMD EPYC 프로세서를 탑재하여 클라우드 사상 최고 수치인 최대 5GHz의 CPU 주파수를 제공합니다. * **이전 세대(M5zn) 대비 대폭 개선:** 컴퓨팅 성능은 최대 2배, 메모리 대역폭은 4.3배 향상되었으며, L3 캐시는 10배 더 커져 데이터 처리 효율이 극대화되었습니다. * **네트워크 및 스토리지 강화:** Nitro 시스템 6세대 카드를 기반으로 네트워크 처리량은 2배, Amazon EBS 처리량은 3배까지 향상되었습니다. * **주요 활용 분야:** 높은 주파수와 저지연 성능이 필수적인 실시간 금융 분석, 고성능 컴퓨팅(HPC), 고주파 매매(HFT), 게임 서버 및 시뮬레이션 모델링에 최적화되어 있습니다. ### Amazon Bedrock의 AI 모델 라인업 및 보안 기능 확장 * **6종의 신규 오픈 가중치 모델 추가:** DeepSeek V3.2, MiniMax M2.1, GLM 4.7/Flash, Kimi K2.5, Qwen3 Coder Next를 이제 Bedrock에서 사용할 수 있습니다. * **용도별 최적화:** 복잡한 추론과 에이전트 지능에 특화된 모델부터 긴 출력 윈도우를 지원하는 자율 코딩 모델, 그리고 운영 비용 효율성을 높인 모델까지 다양한 선택지를 제공합니다. * **Project Mantle 기반 연동:** 새로운 분산 추론 엔진인 Project Mantle을 통해 OpenAI API 규격과 즉시 호환되며, 서버레스 추론 환경에서 높은 수준의 쿼터 관리와 서비스 품질 제어를 지원합니다. * **AWS PrivateLink 지원 확대:** `bedrock-runtime`뿐만 아니라 `bedrock-mantle` 엔드포인트에 대해서도 PrivateLink를 지원하여, 데이터가 공용 인터넷을 거치지 않고 보안이 강화된 전용 네트워크를 통해 통신할 수 있습니다. ### 운영 편의성 및 비용 최적화를 위한 서비스 업데이트 * **Amazon EKS Auto Mode 로깅 강화:** CloudWatch Vended Logs를 통해 컴퓨팅 자동 확장, 스토리지, 네트워킹 등 관리형 쿠버네티스 기능의 로그를 더 저렴한 가격으로 수집하고 관리할 수 있습니다. * **OpenSearch Serverless 컬렉션 그룹:** 여러 컬렉션 간에 OpenSearch 컴퓨팅 유닛(OCU)을 공유할 수 있게 되어 전체적인 비용을 절감할 수 있으며, 지연 시간에 민감한 앱을 위해 최소 OCU 할당량을 지정할 수 있는 기능이 추가되었습니다. * **Amazon RDS 스냅샷 복원 개선:** 스냅샷을 복원하는 시점에 백업 유지 기간과 백업 창 설정을 즉시 수정할 수 있게 되었습니다. 기존에는 복원 완료 후 설정을 변경해야 했던 번거로움이 사라져 워크플로우가 간소화되었습니다. 고성능 단일 코어 성능이 필요한 조직은 M8azn 인스턴스 도입을 검토하여 실시간 처리 역량을 강화할 수 있습니다. 또한, AI 모델 선택의 폭이 넓어진 만큼 특정 작업(코딩, 추론 등)에 최적화된 오픈 가중치 모델을 Amazon Bedrock에서 테스트하여 성능과 비용의 균형을 맞춘 효율적인 AI 애플리케이션 개발 전략을 세우는 것을 추천합니다.

넷플릭스의 LL (새 탭에서 열림)

넷플릭스는 일반적인 기초 모델을 자사 서비스의 카탈로그와 사용자 맥락에 맞게 최적화하기 위해, 인프라의 복잡성을 추상화한 '포스트 트레이닝(Post-Training) 프레임워크'를 구축했습니다. 이 프레임워크는 대규모 분산 GPU 클러스터 환경에서 데이터 파이프라인과 모델 훈련 워크플로우를 효율적으로 조율하여 연구자들이 하드웨어가 아닌 모델 혁신에만 집중할 수 있게 돕습니다. 결과적으로 엔지니어링 병목 현상을 해결함으로써 개인화 추천 및 검색 경험을 고도화하는 데 핵심적인 역할을 수행합니다. ### 데이터 처리 및 모델 설정의 기술적 난제 - **정교한 손실 마스킹(Loss Masking):** 지시어 이행(Instruction following)이나 연쇄 사고(CoT) 품질을 높이기 위해, 프롬프트가 아닌 응답(Assistant) 토큰에만 손실을 적용하여 모델이 부적절한 텍스트를 학습하지 않도록 제어합니다. - **시퀀스 패킹(Sequence Packing):** 가변적인 문장 길이로 인한 연산 낭비를 줄이기 위해 여러 샘플을 고정 길이 시퀀스로 묶고, 샘플 간 간섭을 방지하는 '도큐먼트 마스크'를 적용하여 GPU 효율을 극대화합니다. - **분산 로딩 및 메모리 최적화:** 단일 GPU 메모리를 초과하는 모델을 위해 FSDP(Fully Sharded Data Parallel)나 TP(Tensor Parallel) 샤딩을 사용하며, 대규모 어휘집 처리 시 발생하는 메모리 스파이크를 방지하기 위해 로짓 청킹(Logit chunking) 기법을 도입했습니다. ### 넷플릭스 포스트 트레이닝 프레임워크의 구조 - **기술 스택의 통합:** 넷플릭스 내부 ML 플랫폼인 'Mako' 위에서 PyTorch, Ray, vLLM 등 오픈소스 구성 요소를 결합하여 단일 노드부터 수백 개의 GPU까지 확장 가능한 환경을 제공합니다. - **표준화된 레시피:** SFT(지도 미세 조정), DPO(직접 선호도 최적화), RL(강화 학습), 지식 증류 등 주요 워크플로우를 설정 파일만으로 실행할 수 있는 재사용 가능한 레시피 형태로 지원합니다. - **유연한 아키텍처 확장성:** 단순 챗 모델을 넘어 도메인 특화 특수 토큰 사용이나 비표준 아키텍처 실험이 가능하도록 유연성과 확장성을 최우선으로 설계되었습니다. ### 시스템 고도화를 위한 4대 핵심 요소 - **데이터(Data):** 로컬 저장 공간을 초과하는 대규모 데이터를 클라우드에서 실시간 스트리밍하며, CPU 기반 패킹 작업을 GPU 연산과 비동기적으로 병렬 처리하여 유휴 시간을 제거합니다. - **모델(Model):** Qwen, Gemma 등 최신 아키텍처와 MoE(Mixture-of-Experts) 모델을 지원하며, LoRA 통합 및 고수준 샤딩 API를 통해 복잡한 분산 코딩 없이도 대형 모델을 다룰 수 있게 합니다. - **연산(Compute):** MFU(Model FLOPS Utilization) 모니터링을 통해 연산 효율을 실시간 추적하며, 장애 발생 시 훈련 상태를 정확히 복구할 수 있는 정교한 체크포인팅 시스템을 갖추었습니다. - **워크플로우(Workflow):** 단순 학습 루프를 넘어 온폴리시(On-policy) 강화 학습처럼 생성(Rollout)과 업데이트가 반복되는 복잡한 단계를 SPMD(Single Program, Multiple Data) 스타일로 관리합니다. 복잡한 분산 시스템의 세부 사항을 프레임워크 수준에서 표준화함으로써, 넷플릭스는 고도화된 AI 모델 실험의 진입 장벽을 낮추고 대규모 서비스에 최적화된 모델을 더 빠르게 배포할 수 있는 기반을 마련했습니다. 이러한 엔지니어링 접근 방식은 인프라의 복잡성에 구애받지 않고 최신 모델링 기법을 신속하게 도입하려는 기업들에게 유용한 사례가 됩니다.

변화하는 세상에서의 스케 (새 탭에서 열림)

클라우드 인프라의 가용 자원이 끊임없이 변동하는 환경에서 중단 없이 실행되어야 하는 비선점형(Non-preemptive) 작업들을 효율적으로 배치하기 위한 새로운 알고리즘이 제시되었습니다. Google Research는 이번 연구를 통해 가용량이 시간에 따라 변하는 환경에서도 작업 처리량(Throughput)을 최대로 확보할 수 있는 최초의 상수 요인(Constant-factor) 근사 알고리즘을 개발했습니다. 이 알고리즘은 변동성이 큰 클라우드 환경에서 작업 손실을 최소화하고 스케줄러의 안정성을 이론적으로 보장하는 기틀을 마련했습니다. ### 동적 클라우드 환경과 스케줄링의 난제 * 현대 클라우드 환경은 하드웨어 장애, 유지보수, 고순위 작업의 자원 점유 등으로 인해 가용 자원이 실시간으로 변동하는 특성을 가집니다. * 특히 비선점형 작업은 한 번 시작하면 중간에 멈출 수 없으며, 자원 부족으로 중단될 경우 지금까지의 모든 작업 진행 내용이 소실되는 리스크가 있습니다. * 스케줄러는 각 작업의 방출 시간(Release time), 마감 기한(Deadline), 처리 시간, 가중치를 고려하여 전체 처리량의 합계(가중치 또는 작업 수)를 극대화해야 합니다. ### 오프라인 설정에서의 최적화 전략 * 미래의 작업 도착 정보와 자원 변동 추이를 미리 알고 있는 오프라인 환경에서는 단순한 그리디(Greedy) 전략이 효과적임이 입증되었습니다. * 가장 먼저 끝나는 작업을 우선 배치하는 그리디 알고리즘은 동일 가치 작업들을 스케줄링할 때 최적해의 최소 1/2 성능을 보장(1/2-approximation)합니다. * 작업마다 가치가 다른 가중치 모델의 경우, Primal-dual 프레임워크를 활용하여 최적해의 1/4 성능을 보장하는 알고리즘을 구현했습니다. ### 온라인 환경의 복잡성과 중단 모델 * 실시간으로 작업이 도착하는 온라인 환경에서는 단 하나의 잘못된 결정(긴 작업 배치)이 미래의 수많은 짧은 작업을 막을 수 있어 기존 방식의 효율성이 급격히 떨어집니다. * **재시작 허용 모델(Interruption with restarts):** 작업 중단 시 진행 데이터는 소실되지만 나중에 다시 시도할 수 있는 모델로, 오프라인과 동일하게 1/2 수준의 경쟁비(Competitive ratio)를 달성할 수 있습니다. * **재시작 불가 모델(Interruption without restarts):** 중단된 작업을 영구히 폐기해야 하는 엄격한 모델로, 일반적인 상황에서는 효율적인 스케줄링이 어렵지만 '공통 마감일'이 있는 실무적 시나리오에서는 해결책을 찾았습니다. ### 공통 마감일 시나리오를 위한 상수 경쟁 알고리즘 * 모든 작업이 동일한 마감 시한을 가지는 실제 배치 작업 환경을 위해 최초의 상수 경쟁 알고리즘(1/11 경쟁비)을 설계했습니다. * 이 알고리즘은 새로운 작업이 도착할 때마다 다음 네 가지 우선순위에 따라 잠정적 스케줄을 갱신합니다. 1. 빈 시간대에 작업 추가. 2. 기존에 예약된 미래 작업보다 현저히 작은 작업으로 교체. 3. 현재 실행 중인 작업의 남은 시간보다 도착한 작업이 더 짧을 경우 실행 중인 작업 중단 및 교체. 4. 위 조건에 해당하지 않을 경우 새 작업 폐기. 이 연구 결과는 자원 공급이 불규칙한 클라우드 시스템에서 이론적 보장을 갖춘 견고한 스케줄러를 구축할 수 있는 근거를 제공하며, 특히 저순위 배치 작업의 효율성을 극대화하는 데 실질적인 도움을 줄 수 있습니다.

피그마, C (새 탭에서 열림)

피그마(Figma)는 독일 연방정보보안청(BSI)이 제정한 클라우드 컴퓨팅 준수 기준인 C5 인증을 획득하며 DACH 지역(독일, 오스트리아, 스위스)의 보안 및 규정 준수 역량을 강화했습니다. 이번 인증은 피그마의 정보 보안, 리스크 관리, 운영 투명성이 엄격한 요구 사항을 충족함을 독립적으로 입증한 결과입니다. 이를 통해 규제가 까다로운 공공 및 금융 부문 기업들이 피그마의 클라우드 서비스를 더욱 신뢰하고 협업 도구로 채택할 수 있는 토대를 마련했습니다. ### C5 인증의 의미와 보안 표준 * C5(Cloud Computing Compliance Criteria Catalogue)는 클라우드 서비스의 보안성, 가용성, 기밀성을 평가하기 위해 BSI가 개발한 공신력 있는 표준입니다. * 피그마는 이제 BSI C5 레지스트리에 등재되어, 고객이 피그마의 보안 제어 및 운영 관행을 직접 확인하고 가시성을 확보할 수 있게 되었습니다. * 이번 인증 획득은 피그마가 단순한 디자인 도구를 넘어 정보 보안과 리스크 관리에 있어 글로벌 수준의 엄격한 기준을 준수하고 있음을 의미합니다. ### DACH 지역 및 규제 산업으로의 확장 * 현재 독일 DAX 40 기업의 약 90%가 피그마를 사용 중이며, 이번 인증을 통해 이들 기업과의 파트너십이 더욱 공고해질 것으로 기대됩니다. * 특히 엄격한 규제가 적용되는 정부 기관, 공공 부문, 금융 산업의 조직들이 내부 보안성 검토 및 승인 절차를 이전보다 훨씬 수월하게 진행할 수 있게 되었습니다. * 피그마는 이를 위해 독일어 현지화 서비스를 완비했으며, 엔터프라이즈 고객이 데이터를 유럽 연합(EU) 내에 로컬로 저장할 수 있는 옵션을 제공하는 등 지역 특화 투자를 지속하고 있습니다. 보안 요구 사항이 높은 유럽 시장이나 이와 유사한 글로벌 보안 표준을 준수해야 하는 기업은 피그마의 C5 인증을 보안 검토의 핵심 지표로 활용할 수 있습니다. 데이터 주권과 운영 투명성을 중시하는 엔터프라이즈 환경에서 피그마는 더욱 안전하고 신뢰할 수 있는 클라우드 협업 선택지가 될 것입니다.

맞춤형 Intel Xeon 6 프로세 (새 탭에서 열림)

AWS가 Intel Xeon 6 프로세서를 탑재한 차세대 메모리 최적화 인스턴스인 Amazon EC2 X8i의 정식 출시를 발표했습니다. 이 인스턴스는 이전 세대인 X2i 대비 최대 1.5배의 메모리 용량과 3.4배의 대역폭을 제공하여 대규모 데이터베이스 및 분석 작업에 최적화되었습니다. 특히 SAP 인증을 획득하여 SAP HANA와 같은 고성능 인메모리 워크로드에서 압도적인 효율성을 보여줍니다. **커스텀 Intel Xeon 6 기반의 독보적인 성능** * AWS 전용으로 설계된 커스텀 Intel Xeon 6 프로세서를 탑재하여 전 코어 3.9GHz의 지속적인 터보 주파수를 제공합니다. * 이전 세대(X2i)와 비교했을 때 전체적으로 최대 43%의 성능 향상을 실현했습니다. * 최대 6TB의 메모리 용량을 지원하며, 메모리 대역폭은 3.4배 더 넓어져 데이터 집약적인 처리에 유리합니다. **주요 워크로드별 벤치마크 및 비용 효율성** * SAP HANA 워크로드에서 이전 세대 대비 최대 50% 향상된 SAPS(SAP Application Performance Standard) 성능을 기록했습니다. * PostgreSQL 성능은 최대 47%, Memcached는 최대 88%, AI 추론 성능은 최대 46%까지 개선되었습니다. * 실제 고객 사례인 Orion의 경우, X8i의 높은 성능 덕분에 활성 코어 수를 줄이면서도 동일 성능을 유지하여 SQL Server 라이선스 비용을 50% 절감했습니다. **유연한 인스턴스 규격과 대역폭 옵션** * 가상화 인스턴스(48xlarge, 64xlarge, 96xlarge 등)부터 베어메탈(metal-48xl, metal-96xl)까지 총 14가지 크기를 제공합니다. * 최대 100Gbps의 네트워크 대역폭(EFA 지원)과 80Gbps의 Amazon EBS 대역폭을 통해 대규모 데이터 전송 병목 현상을 최소화합니다. * IBC(Instance Bandwidth Configuration) 기능을 지원하여 사용자가 필요에 따라 네트워크와 EBS 대역폭 할당량을 조정할 수 있습니다. **가용성 및 구매 방식** * 현재 미국 동부(버지니아 북부), 미국 서부(오레곤), 유럽(프랑크푸르트, 아일랜드), 아시아 태평양(시드니, 도쿄) 리전에서 즉시 사용 가능합니다. * 온디맨드, 예약 인스턴스(RI), Savings Plans 및 스팟 인스턴스 등 다양한 구매 옵션을 통해 비용을 최적화할 수 있습니다. SAP HANA와 같은 대규모 인메모리 데이터베이스를 운영하거나, 높은 컴퓨팅 파워와 방대한 메모리가 동시에 필요한 EDA(전자 설계 자동화) 및 데이터 분석 환경이라면 X8i 인스턴스로의 전환을 통해 성능 향상과 라이선스 비용 절감 효과를 동시에 거둘 수 있을 것입니다.

AWS 주간 요약: .NET용 AWS Lambda 10, AWS 클라이언트 VPN 빠른 시작, AWS re:Invent 베스트 및 기타 (2026년 1월 12일) (새 탭에서 열림)

2026년 1월 초 AWS의 주요 업데이트 소식을 다루며, 특히 .NET 10 기반의 AWS Lambda 지원과 Amazon ECS의 tmpfs 마운트 기능 등 개발 생산성을 높이는 신규 기능들을 소개합니다. 또한 AWS re:Invent 2025의 핵심 발표 내용과 함께, 클라우드 기술 역량 강화를 위해 6개월간 최대 200달러의 크레딧을 제공하는 프리티어 혜택을 강조하고 있습니다. 최종적으로 개발자와 아키텍트가 최신 클라우드 기술을 실무에 빠르게 적용할 수 있도록 돕는 다양한 가이드와 커뮤니티 소식을 전달합니다. ### 주요 서비스 및 기술 업데이트 - **AWS Lambda .NET 10 지원**: .NET 10 버전의 관리형 런타임 및 컨테이너 베이스 이미지를 공식 지원하며, AWS에서 관리형 런타임에 대한 업데이트를 자동으로 수행합니다. - **Amazon ECS tmpfs 마운트 확장**: AWS Fargate 및 Linux 기반 관리형 인스턴스에서 tmpfs 마운트를 지원하여, 데이터를 디스크에 쓰지 않고 메모리 내 파일 시스템을 활용함으로써 성능을 최적화할 수 있습니다. - **Amazon MQ 인증 방식 강화**: RabbitMQ 브로커에 대해 HTTP 기반 인증 플러그인을 설정할 수 있으며, 상호 TLS(mTLS)를 통한 인증서 기반 인증 방식을 새롭게 지원합니다. - **Amazon MWAA 및 AWS Config 업데이트**: Apache Airflow 2.11 버전을 지원하여 Airflow 3로의 업그레이드 준비를 돕고, AWS Config에서 SageMaker 및 S3 Tables 등 추가적인 리소스 타입을 관리할 수 있게 되었습니다. - **AWS Client VPN 퀵스타트**: VPN 인프라 구성 과정을 단순화하여 상호 인증 모델을 사용한 VPN 엔드포인트를 보다 빠르게 배포할 수 있는 도구를 제공합니다. ### re:Invent 2025 다시보기 및 커뮤니티 인사이트 - **주요 세션 공개**: AWS 공식 유튜브 채널을 통해 re:Invent 2025의 기조연설과 기술 세션 영상이 제공되어 생성형 AI, 데이터베이스 등 최신 기술 트렌드를 학습할 수 있습니다. - **전문가 추천 콘텐츠**: AWS Hero들이 Amazon Bedrock, CDK, S3 Tables, Aurora Limitless Database 등 혁신적인 신규 서비스와 관련된 핵심 세션을 요약하여 추천합니다. - **커뮤니티 블로그**: 전 세계 AWS 전문가들이 작성한 re:Invent 요약 글을 통해 기술적 통찰력을 공유받을 수 있습니다. ### 글로벌 행사 및 교육 기회 - **AWS 프리티어 혜택**: 신규 사용자는 6개월 동안 최대 200달러의 크레딧과 30개 이상의 상시 무료 서비스를 통해 리스크 없이 클라우드 환경을 실험해 볼 수 있습니다. - **향후 이벤트 일정**: 파리, 암스테르담 등에서 열리는 AWS Summit과 바르샤바 AWS Cloud Day 등 글로벌 컨퍼런스가 예정되어 있어 지속적인 네트워킹과 학습이 가능합니다. AI와 클라우드 전문성을 키우고자 한다면 이번에 강화된 AWS 프리티어 혜택을 활용해 .NET 10 런타임이나 신규 VPN 퀵스타트 도구를 직접 실습해 보는 것을 추천합니다. 특히 대규모 데이터 처리가 필요한 워크로드라면 ECS의 tmpfs 마운트 기능을 통해 I/O 성능을 개선할 수 있는 기회를 검토해 보시기 바랍니다.

AWS 주간 소식 요약 (새 탭에서 열림)

2025년 re:Invent 행사 이후에도 AWS는 사용자 편의성과 개발 효율성을 높이기 위한 다양한 서비스 업데이트를 지속적으로 발표하고 있습니다. 이번 주 업데이트의 핵심은 Amazon ECS의 컨테이너 종료 제어 유연성 확보와 Aurora 데이터베이스의 즉각적인 프로비저닝 능력 강화에 있으며, 이를 통해 개발자들은 보다 정밀하고 빠른 클라우드 환경을 구축할 수 있게 되었습니다. **애플리케이션 개발 및 데이터베이스 환경 개선** * **Amazon Aurora DSQL 클러스터 생성 속도 향상:** 데이터베이스 클러스터 생성 시간이 기존 분 단위에서 초 단위로 대폭 단축되었습니다. 이를 통해 개발자는 통합 쿼리 에디터나 AI 기반 개발 도구를 사용하여 신속하게 프로토타이핑을 시작할 수 있습니다. * **Aurora PostgreSQL의 Kiro powers 통합:** AI 보조 코딩을 지원하는 'Kiro powers' 리포지토리와 통합되었습니다. 개발자는 Kiro IDE에서 클릭 한 번으로 설치하여 쿼리, 스키마 관리, 클러스터 작업에 필요한 컨텍스트를 동적으로 로드하고 활용할 수 있습니다. * **Amazon Redshift와 OpenSearch의 Zero-ETL 통합:** 복잡한 데이터 파이프라인 구축 없이도 Redshift의 데이터를 OpenSearch로 실시간 연동하여 검색 및 분석 성능을 극대화할 수 있습니다. **컨테이너 및 서버리스 운영 최적화** * **ECS 및 Fargate의 사용자 정의 정지 신호 지원:** 이제 Fargate 태스크가 컨테이너 이미지에 설정된 특정 정지 신호(예: SIGQUIT, SIGINT)를 인식합니다. 기본값인 SIGTERM 외의 신호가 필요한 애플리케이션도 이제 안전하고 우아한 종료(Graceful Shutdown)가 가능해졌습니다. * **AWS Lambda의 고급 로깅 기능 확장:** 사용자 정의 런타임에서도 JSON 형식의 로깅 및 로그 레벨 제어 기능을 사용할 수 있게 되었습니다. 이를 통해 복잡한 서버리스 환경에서 로그 수집과 디버깅 과정이 더욱 체계화되었습니다. **보안 강화 및 관리 편의성 증대** * **WorkSpaces Secure Browser의 웹 콘텐츠 필터링:** 25개 이상의 사전 정의된 카테고리를 기반으로 웹 접근을 제어할 수 있는 기능이 추가되었습니다. 추가 비용 없이 10개 리전에서 사용 가능하며, 세션 로거(Session Logger)와 통합되어 규정 준수 모니터링이 강화되었습니다. * **Amazon Cognito의 OTP 자동 인증:** 이메일 및 전화번호 확인을 위해 일회성 비밀번호(OTP)를 자동으로 검증하는 기능이 도입되었습니다. 사용자 가입 절차를 간소화하면서도 보안성을 유지할 수 있는 환경을 제공합니다. * **Amazon CloudWatch SDK 최적화:** SDK에서 최적화된 JSON 및 CBOR 프로토콜을 지원하여 데이터 전송 효율과 모니터링 성능을 개선했습니다. re:Invent 2025의 주요 발표와 더불어 이번 주에 업데이트된 세부 기능들을 검토하여 현재 운영 중인 인프라에 적용해 보시기 바랍니다. 특히 Fargate의 정지 신호 커스터마이징이나 Aurora DSQL의 빠른 생성 기능은 개발 및 배포 파이프라인의 효율을 즉각적으로 개선할 수 있는 실질적인 도구가 될 것입니다.

AWS 주간 요약: AWS re (새 탭에서 열림)

AWS re:Invent 2025는 단순한 기술 발표를 넘어 AI 어시스턴트가 자율적인 'AI 에이전트'로 진화하는 중대한 변곡점을 시사했습니다. AWS는 개발자들에게 발명의 자유를 제공한다는 핵심 미션을 재확인하며, 자연어로 복잡한 작업을 수행하고 코드를 실행하는 에이전트 중심의 미래 비전을 제시했습니다. 이번 행사는 AI 투자가 실질적인 비즈니스 가치로 전환되는 시점에서 보안, 가용성, 성능이라는 클라우드의 본질적 가치를 다시 한번 강조했습니다. **AI 에이전트 중심의 비즈니스 혁신** * **어시스턴트에서 에이전트로의 진화:** 단순한 답변 제공을 넘어 스스로 계획을 세우고, 코드를 작성하며, 필요한 도구를 호출해 작업을 완수하는 자율형 에이전트가 핵심 기술로 부상했습니다. * **실질적 비즈니스 수익 창출:** AI가 단순한 실험 단계를 지나 기업의 업무를 자동화하고 효율성을 높임으로써 구체적인 재무적 성과를 내기 시작하는 단계에 진입했습니다. * **비결정적 특성에 최적화된 인프라:** 결과가 매번 다를 수 있는 AI 에이전트의 특성(Non-deterministic)을 고려하여, 안전하고 신뢰할 수 있으며 확장이 용이한 전용 인프라를 구축하고 있습니다. **아키텍트의 르네상스와 개발자 생태계** * **설계 역량의 재발견:** 기술적 세부 사항에 매몰되기보다 시스템 전체를 조망하고 설계하는 고수준 아키텍처 역량이 중요해진 '아키텍트의 르네상스' 시대가 도래했습니다. * **커뮤니티 기여의 가치:** 필리핀의 AWS 히어로 라피(Rafi)가 'Now Go Build' 상을 수상한 사례를 통해, 기술 혁신만큼이나 커뮤니티 빌딩과 개발자 역량 강화가 중요함을 강조했습니다. * **발명의 자유(Freedom to Invent):** 지난 20년간 AWS의 중심이었던 개발자들이 창의성을 발휘할 수 있도록 도구와 환경을 제공하는 것이 AWS의 변함없는 목표임을 천명했습니다. **클라우드 기반 기술의 지속적 고도화** * **커스텀 실리콘과 인프라:** 보안, 가용성, 성능이라는 클라우드의 기본 속성을 유지하면서도 AI 워크로드에 최적화된 하드웨어 혁신을 지속하고 있습니다. * **자연어 기반 솔루션 구현:** 사용자가 달성하고자 하는 목적을 자연어로 설명하면 시스템이 실행 가능한 솔루션으로 변환하는 인터페이스의 혁신이 가속화되고 있습니다. AI 에이전트가 주도하는 기술 환경 변화에 대응하기 위해, 기업들은 단순한 챗봇 도입을 넘어 비즈니스 프로세스 자체를 자동화할 수 있는 에이전트 활용 전략을 수립해야 합니다. AWS re:Invent 2025의 주요 세션 영상과 발표 자료가 온디맨드로 제공되고 있으므로, 조직의 요구 사항에 맞는 AI 아키텍처를 재설계하고 새로운 기술 도구들을 선제적으로 검토해 보시길 권장합니다.

Amazon SageMaker HyperPod에서 (새 탭에서 열림)

Amazon SageMaker HyperPod은 대규모 AI 모델 학습의 효율성을 극대화하기 위해 '체크포인트리스(Checkpointless) 학습'과 '엘라스틱(Elastic) 학습' 기능을 새롭게 출시했습니다. 이 기술들은 하드웨어 장애 발생 시 복구 시간을 획기적으로 단축하고 클러스터 자원 활용도를 자동 최적화하여 전체 개발 주기를 대폭 앞당깁니다. 이를 통해 엔지니어는 인프라 관리 부담에서 벗어나 모델 성능 고도화와 시장 출시 속도 향상에 더욱 집중할 수 있습니다. ### 체크포인트리스 학습을 통한 중단 없는 상태 복구 기존의 체크포인트 기반 복구는 작업 종료, 재시작, 네트워크 설정, 체크포인트 검색 및 로드 등 복잡한 단계를 거치느라 최대 1시간 이상의 다운타임이 발생하곤 했습니다. 체크포인트리스 학습은 이러한 병목 현상을 해결하기 위해 다음과 같은 기술적 요소를 도입했습니다. * **피어 투 피어(P2P) 상태 복제**: 모델의 상태를 클러스터 내의 건강한 노드(Peer)에 실시간으로 복제하여 저장하며, 장애 발생 시 체크포인트를 불러오는 대신 이웃 노드로부터 즉시 상태를 복구합니다. * **복구 시간 단축**: 전통적인 방식 대비 복구 시간을 분 단위로 줄였으며, 내부 테스트 결과 2,000개 이상의 GPU 환경에서도 다운타임을 80% 이상 감소시키는 성과를 보였습니다. * **4가지 핵심 구성 요소**: 집합 통신 초기화 최적화, 캐싱이 가능한 메모리 매핑 데이터 로딩, 프로세스 내 복구(In-process recovery), 그리고 P2P 상태 복제 기술이 유기적으로 결합되어 작동합니다. * **검증된 확장성**: 수만 개의 가속기를 활용한 Amazon Nova 모델 학습에 이미 성공적으로 적용되어 대규모 환경에서의 안정성을 입증했습니다. ### 자원 활용을 극대화하는 엘라스틱 학습 엘라스틱 학습은 클러스터의 가용 자원 상태에 따라 학습 워크로드의 규모를 유연하게 조절하는 기능입니다. 인프라의 가변적인 상황에 맞춰 학습 효율을 최대로 끌어올립니다. * **자동 확장 및 축소**: 클러스터 내에 유휴 자원이 발생하면 학습 규모를 자동으로 확장하고, 추론 서비스와 같은 고우선순위 작업이 몰릴 때는 자원을 즉시 반납하며 축소합니다. * **운영 효율성**: 매주 수동으로 인프라 설정을 변경하던 엔지니어링 시간을 절약할 수 있으며, 클러스터 활용도를 높여 전체 학습 완료 시간을 단축합니다. * **우선순위 기반 할당**: 비즈니스 요구사항에 따라 자원을 재배치함으로써 고비용의 컴퓨팅 자원을 낭비 없이 사용할 수 있도록 지원합니다. ### 실용적인 권장 사항 수천 개의 GPU를 사용하는 초거대 모델 학습 환경에서는 하드웨어 장애가 빈번하게 발생할 수밖에 없습니다. 인프라 장애로 인한 학습 중단 리스크를 최소화하고 싶은 팀은 SageMaker HyperPod의 체크포인트리스 학습을 도입하여 복구 골든타임을 확보할 것을 권장합니다. 특히 가변적인 인프라 환경에서 비용 효율성을 중시한다면 엘라스틱 학습 기능을 활성화하여 클러스터 유휴 자원을 100% 활용하는 전략이 유효할 것입니다.

가상 머신 퍼즐 해결: (새 탭에서 열림)

구글 리서치와 딥마인드가 개발한 LAVA는 클라우드 데이터 센터의 자원 효율성을 극대화하기 위해 가상 머신(VM)의 수명을 실시간으로 예측하고 적응하는 새로운 스케줄링 알고리즘입니다. 기존의 단발성 예측 방식에서 벗어나 VM이 실행되는 동안 지속적으로 남은 수명을 재예측하는 방식을 채택하여 자원 파편화와 낭비를 획기적으로 줄였습니다. 이 시스템은 실제 구글의 대규모 클러스터 관리 시스템인 Borg에 적용되어 빈 호스트 확보 및 자원 활용도 측면에서 유의미한 성능 향상을 입증했습니다. ## 수명 예측의 불확실성과 연속 재예측 기술 * 클라우드 VM의 수명은 매우 불확실하며, 대다수의 단기 VM(88%)이 아주 적은 자원(2%)만 사용하는 반면 극소수의 장기 VM이 대부분의 자원을 점유하는 롱테일(Long-tail) 분포를 보입니다. * LAVA는 생존 분석(Survival Analysis)에서 영감을 얻은 머신러닝 모델을 사용하여 VM 수명을 단일 값이 아닌 확률 분포로 예측함으로써 내재된 불확실성을 관리합니다. * "연속 재예측(Continuous Reprediction)" 기능을 통해 VM이 실행되는 동안 축적된 정보를 바탕으로 남은 수명을 실시간으로 업데이트하며, 이를 통해 초기 예측 오류를 스스로 수정하고 정확도를 높입니다. ## NILAS: 기존 시스템에 통합되는 비침습적 스케줄링 * NILAS(Non-Invasive Lifetime Aware Scheduling)는 기존 구글의 Borg 스케줄러 점수 함수에 수명 예측 데이터를 통합한 알고리즘입니다. * 새로운 VM을 배치할 때 해당 호스트에 이미 있는 VM들의 예상 종료 시간을 고려하여, 비슷한 시기에 종료될 VM들을 한곳에 모읍니다. * 이 방식은 특정 시점에 호스트 내의 모든 VM이 동시에 종료되도록 유도하여, 대규모 작업이나 유지보수에 필수적인 '빈 호스트'를 더 많이 확보하는 데 기여합니다. ## LAVA와 LARS를 통한 자원 배치 및 재배치 최적화 * **LAVA (Lifetime-Aware VM Allocation):** 장기 VM이 점유 중인 호스트의 남은 유휴 공간에 아주 짧은 수명의 VM들을 배치하는 전략입니다. 이는 자원 파편화(Resource Stranding)를 방지하며, 단기 VM이 빠르게 종료되므로 호스트의 전체 수명에 영향을 주지 않고 효율을 높입니다. * **LARS (Lifetime-Aware Rescheduling):** 데이터 센터 유지보수나 파편화 제거가 필요할 때, 예측된 수명이 긴 VM부터 우선적으로 다른 호스트로 이주시킵니다. 수명이 짧은 VM은 이주시키지 않고 자연스럽게 종료되도록 기다림으로써 불필요한 시스템 중단과 이동 비용을 최소화합니다. LAVA의 도입은 예측 불가능한 사용자 워크로드를 다루는 클라우드 인프라에서 단순한 정적 규칙보다 실시간 데이터 기반의 적응형 알고리즘이 훨씬 효과적임을 시사합니다. 이러한 접근법은 대규모 데이터 센터 운영에서 경제적 효율성을 높일 뿐만 아니라, 서버 가동률 최적화를 통해 에너지 소비를 줄이는 환경적 지속 가능성 측면에서도 중요한 솔루션이 될 수 있습니다.

2023-03-08 사건: 플랫폼 수준 복구에 대한 심층 분석 | Datadog (새 탭에서 열림)

2023년 3월 발생한 대규모 장애 당시 Datadog은 전체 컴퓨팅 용량의 60%를 상실했으며, 이를 복구하기 위해 계층화된 쿠버네티스 구조에 따른 체계적인 재부팅 전략을 수행했습니다. EU1 리전의 복구 과정에서 팀은 단순한 노드 재가동을 넘어 클라우드 제공업체의 피어링 그룹 제한과 서브넷 IP 고갈이라는 예상치 못한 인프라 한계에 직면했습니다. 이 글은 대규모 인프라 장애 시 제어 평면(Control Plane)의 복구 순서와 백로그 처리를 위한 과도한 스케일 아웃이 유발하는 2차 병목 현상을 상세히 다룹니다. **계층적 쿠버네티스 구조와 복구 전략** * Datadog은 관리 효율성을 위해 '부모(Parent)-자식(Child)' 형태의 계층적 클러스터 구조를 사용합니다. 부모 클러스터는 자식 클러스터의 제어 평면을 포드(Pod) 형태로 호스팅하며, 자식 클러스터는 실제 애플리케이션 워크로드를 실행합니다. * 장애의 원인이 된 시스템 패치(Ubuntu 22.04의 systemd-networkd 관련 이슈)로 인해 네트워크 연결이 끊긴 노드들을 복구하기 위해 엄격한 순서에 따른 재부팅을 진행했습니다. * 복구는 (1) 부모 클러스터 제어 평면 노드 재시작, (2) 부모 노드 위에서 실행되는 자식 클러스터 제어 평면 포드 복구, (3) 수천 개의 자식 클러스터 애플리케이션 노드 재시작 순으로 이루어졌습니다. * 특히 제어 평면에 과부하가 걸리지 않도록 노드 재시작 속도를 조절했으며, 워크로드의 중요도에 따라 클러스터별 복구 우선순위를 설정했습니다. **인프라 확장 제한으로 인한 복구 지연** * 모든 컴퓨팅 용량을 복구한 후, 장애 동안 쌓인 대규모 데이터 백로그를 처리하기 위해 급격한 스케일 아웃(Scale-out)을 시도하는 과정에서 예상치 못한 제한에 부딪혔습니다. * **GCP 네트워크 피어링 제한:** EU1 리전 내 인스턴스 수가 15,500개에 도달하며 구글 클라우드의 네트워크 피어링 그룹 제한에 걸려 약 4시간 동안 추가 인스턴스 생성이 차단되었습니다. 이는 구글 측과의 긴급 협력을 통해 한도를 증설하여 해결했습니다. * **서브넷 IP 주소 고갈:** 로그 및 트레이스 처리를 담당하는 특정 클러스터들이 평상시보다 2배 이상 스케일 아웃을 시도하면서 서브넷 내 사용 가능한 IP 주소가 바닥났습니다. * 평소 IP 사용률을 66% 이하로 유지하도록 모니터링해왔으나, 백로그 처리를 위한 폭발적인 수요는 평상시 변동 폭을 훨씬 상회하는 수준이었습니다. 결과적으로 특정 클러스터들은 약 6시간 동안 최적의 속도로 데이터를 처리하지 못했습니다. **교훈 및 실용적 권장사항** 복구 계획을 세울 때는 단순히 시스템을 정상화하는 것을 넘어, 장애 이후 발생할 '데이터 백로그 처리'를 위한 초과 용량 확보 시나리오를 반드시 고려해야 합니다. 클라우드 제공업체의 하드웨어 리소스 한계뿐만 아니라 네트워크 피어링, 서브넷 IP 할당 범위와 같은 소프트웨어적/구성적 제한 사항을 사전에 파악하고, 극단적인 스케일링 상황에서도 유연하게 대처할 수 있는 여유 용량(Headroom) 설계가 필수적입니다.