cloud-infrastructure

10 개의 포스트

SRE 팀의 반복 작업을 10분의 1로 줄인 SRE 봇 개발기 (새 탭에서 열림)

LINE Home DevOps 팀은 인프라 전환과 서비스 확대로 급증한 운영 문의 및 반복적인 배포 요청 문제를 해결하기 위해 Slack 기반의 통합 자동화 도구인 'SRE 봇'을 구축했습니다. 기존에 수동으로 수행하던 Jira 티켓 생성, 컨플루언스 체크리스트 복사, 배포 매뉴얼 검색 등의 프로세스를 자동화하여 업무 시간을 획기적으로 단축하고 휴먼 에러를 방지했습니다. 이를 통해 팀은 단순 반복 업무에서 벗어나 서비스 안정화와 인프라 고도화라는 본연의 업무에 집중할 수 있는 환경을 마련했습니다. ### 수동 운영 프로세스의 한계와 비효율성 * **복잡한 워크플로와 컨텍스트 스위칭:** 배포 요청 한 건을 처리하기 위해 Slack, Confluence, Jira 등 여러 플랫폼을 오가며 정보를 복사-붙여넣기해야 했으며, 이 과정에서 1건당 약 1시간의 시간이 소요되었습니다. * **휴먼 에러의 빈번한 발생:** 수동 작업 특성상 릴리스 버전 설정 오류, 필수 체크리스트 항목 누락, Epic 링크 연결 누락 등 실수가 잦았고, 긴급 상황일수록 이러한 문제는 더욱 심화되었습니다. * **가시성 부족과 정량화의 어려움:** Slack 멘션으로 들어오는 요청은 휘발성이 강해 진행 상황 추적이 어려웠으며, 팀의 업무량을 정량적으로 파악하여 성과로 증명하기 힘든 구조였습니다. ### 사용자 편의와 시스템 안정성을 고려한 기술적 설계 * **Slack 워크플로 기반 UI:** 사용자가 직접 명령어를 입력하는 방식 대신 Slack 워크플로 양식을 채택하여 필수 항목 누락을 방지하고 사용자의 진입 장벽을 낮췄습니다. * **백그라운드 비동기 처리:** Slack API의 응답 제한 시간(3초) 내에 외부 시스템(Jira, Confluence)과의 복잡한 연동을 마칠 수 없으므로, 즉시 응답 후 실제 작업은 백그라운드에서 수행하는 비동기 방식을 선택했습니다. * **Redis를 활용한 상태 관리:** Slack 스레드와 Jira 티켓 간의 매핑 정보를 Redis에 저장(TTL 30일 설정)하여 100ms 미만의 빠른 조회 성능을 확보하고, 트랜잭션을 통해 여러 SRE가 동시에 작업할 때 발생할 수 있는 동시성 문제를 해결했습니다. ### 헥사고날 아키텍처를 통한 유연한 확장성 확보 * **포트와 어댑터 패턴 적용:** Slack, Jira, Redis 등 외부 시스템과의 결합도를 낮추기 위해 헥사고날 아키텍처를 도입했습니다. * **비즈니스 로직 보호:** 인터페이스를 통해 외부 환경을 격리함으로써 Jira API 버전 업그레이드나 Slack SDK 변경 등 외부 변화가 발생하더라도 내부의 핵심 비즈니스 로직을 수정할 필요가 없도록 설계했습니다. * **테스트 및 유지보수 용이성:** 각 레이어가 명확히 분리되어 있어 기능 추가 시 영향 범위를 최소화할 수 있으며, 테스트 코드 작성이 수월해져 안정적인 코드베이스 유지가 가능해졌습니다. ### 도입 후 시나리오별 변화 및 성과 * **배포 요청 처리 시간 단축:** 기존 30분 이상 걸리던 배포 요청 처리가 SRE 봇 도입 후 1분 이내로 단축되었습니다. 봇이 Fix Version 생성, 티켓 연결, 매뉴얼 검색을 10초 만에 자동 수행하기 때문입니다. * **긴급 대응 및 가시성 개선:** 긴급 요청 시 즉시 우선순위가 높게 설정된 티켓이 생성되고 채널에 알림이 공유됩니다. SRE는 이모지 클릭만으로 본인에게 티켓을 할당하고 상태를 업데이트할 수 있어 실시간 추적이 용이해졌습니다. * **정기적인 업무 정량화:** 모든 요청이 정형화된 Jira 티켓으로 자동 기록됨에 따라, 팀원당 투입 시간과 처리 건수를 명확히 데이터화하여 운영 성과를 증명할 수 있게 되었습니다. 단순 반복적인 운영 업무로 인해 팀의 에너지가 고갈되고 있다면, 기술적인 자동화 레이어를 구축하여 'Zero Manual Work'를 지향하는 것이 장기적인 팀 생산성 향상의 핵심입니다. Slack과 같은 협업 툴을 Single Point of Truth로 설정하고 외부 시스템을 유연하게 연결하는 아키텍처를 고민해 보시기 바랍니다.

나의 에어비앤비 입 (새 탭에서 열림)

안나 술키나(Anna Sulkina)는 20년 이상의 경력을 가진 엔지니어링 리더로, 하드웨어 진단에서 시작해 프론트엔드와 백엔드를 거쳐 현재 에어비앤비의 인프라 및 클라우드 부문을 이끌고 있습니다. 그녀는 트위터 재직 당시 대규모 분산 시스템의 기술적 한계를 극복하고 조직적 합의를 통해 GraphQL 도입을 성공시킨 경험을 바탕으로, 기술적 역량과 리더십의 조화를 강조합니다. 현재 그녀는 에어비앤비에서 개발자 플랫폼의 전략적 방향성을 설정하고 고성과 팀을 구축하여 비즈니스 가치를 극대화하는 데 전념하고 있습니다. ### 기술적 호기심의 시작과 초기 경력의 도전 * 소련 붕괴 시기 우크라이나에서 성장하며, 컴퓨터 하드웨어를 조립하던 오빠의 영향으로 기술에 대한 호기심을 키웠습니다. * 미국 이주 초기에는 프로그래밍 언어보다 영어 소통에 더 큰 어려움을 겪었으나, 버클리 익스텐션 등을 통해 C++과 Java 지식을 확장하며 전문성을 쌓았습니다. * 첫 직장인 하드웨어 진단 분야를 시작으로 기술 스택의 아래 단계로 점진적으로 내려가며 하드웨어, 프론트엔드, 백엔드를 아우르는 폭넓은 시각을 갖게 되었습니다. ### 리더십으로의 전환과 팀 구축의 즐거움 * 개인 기여자(IC)로서의 역량뿐만 아니라 리더십 잠재력을 인정받아 텔레콤 스타트업과 컴캐스트(Comcast)를 거치며 엔지니어링 매니저로 성장했습니다. * 좋은 리더가 있는 팀과 그렇지 않은 팀의 차이를 직접 목격하며 사람을 코칭하고 고성과 팀을 만드는 과정에서 큰 흥미를 느꼈습니다. * 기술 스택의 깊이가 깊어질수록 리더십의 책임 또한 커지는 궤적을 그리며 인프라 부문의 리더로 자리매김했습니다. ### 트위터에서의 분산 시스템 설계와 기술 혁신 * 약 9년 동안 트위터에 재직하며 'Fail Whale' 시기와 엘런 디제너러스의 셀카 사건 등 대규모 트래픽 장애를 해결하는 핵심적인 역할을 수행했습니다. * **실패를 위한 설계:** 모놀리스 구조에서 마이크로서비스 아키텍처로 전환하며, 복잡한 분산 시스템에서는 실패를 피하는 것이 아니라 '실패를 대비한 설계'가 필수적임을 배웠습니다. * **합의를 통한 혁신:** 해커톤에서 시작된 GraphQL 도입을 위해 전사적인 기술적 합의를 이끌어냈으며, 이는 기존 REST 서비스를 대체하고 제품 개발 속도를 획기적으로 높이는 결과로 이어졌습니다. ### 에어비앤비에서의 전략적 정렬과 플랫폼 고도화 * 평소 여행을 좋아하고 에어비앤비 서비스의 팬이었던 점이 이직의 결정적 계기가 되었으며, 개인적 관심사와 기술적 전문성을 일치시켰습니다. * **개발자 플랫폼 개선:** 파편화되어 있던 개발자 플랫폼 조직의 전략을 명확히 하고, 내부 이해관계자들과의 신뢰를 구축하는 데 집중했습니다. * **조직적 정렬:** "우리는 왜 여기에 모였는가?"와 같은 근본적인 질문에 답하며 리더십 코칭과 팀 간 정렬을 통해 비즈니스 가치를 창출하는 고성과 조직을 재정비했습니다. 안나 술키나의 여정은 복잡한 시스템일수록 기술적 완벽주의보다는 실패를 수용하는 유연한 설계가 중요하다는 점을 시사합니다. 또한, 기술적 혁신은 단순히 뛰어난 코드로 완성되는 것이 아니라, 조직 내의 합의를 이끌어내고 구성원들의 목표를 하나로 정렬하는 리더십을 통해 비로소 실현될 수 있음을 보여줍니다.

Data Intensity의 Oracle Cloud Infrastructure (새 탭에서 열림)

GitLab은 Oracle Cloud Infrastructure(OCI) 및 관리 서비스 전문 기업인 Data Intensity와 협력하여 'DevSecOps-as-a-Service'를 출시했습니다. 이 서비스는 GitLab Self-Managed 버전이 제공하는 강력한 통제권과 보안성을 유지하면서도, 인프라 운영 및 유지보수에 따른 부담을 완전히 해소하는 것을 목표로 합니다. 기업은 OCI의 가성비 높은 클라우드 인프라와 전문가의 관리 서비스를 통해 복잡한 플랫폼 관리 대신 소프트웨어 개발 본연의 가치에 집중할 수 있습니다. ## GitLab Self-Managed의 가치와 운영상의 도전 과제 * **완전한 제어권:** 데이터 위치, 인스턴스 구성, 보안 및 규정 준수 요구 사항을 조직의 목적에 맞게 커스터마이징할 수 있습니다. * **운영의 복잡성:** 자체 관리형 환경을 운영하려면 서버 관리, 정기적인 업데이트 및 패치, 고가용성(HA) 확보, 재해 복구(DR) 시스템 구축을 위한 전문 인력과 자원이 필요합니다. * **리소스 분산:** 인프라 유지보수에 많은 에너지를 쏟게 되면 정작 중요한 애플리케이션 개발과 배포 속도가 늦어지는 부작용이 발생할 수 있습니다. ## Data Intensity가 제공하는 관리형 서비스의 핵심 * **전문가 관리형 인스턴스:** OCI 인프라 위에서 실행되는 독립적인 GitLab 인스턴스를 Data Intensity 전문가 팀이 직접 관리합니다. * **연중무휴 지원:** 24x7 모니터링, 알람 시스템, 기술 지원을 통해 서비스 안정성을 보장합니다. * **체계적인 유지보수:** 고객이 선택한 유지관리 시간에 맞춰 분기별 패치를 진행하며, 자동화된 백업 및 재해 복구 보호 기능을 제공합니다. * **유연한 확장성:** 조직의 사용자 규모와 복구 요구 사항에 맞춘 계층형 아키텍처를 제공하여 팀의 성장에 따라 유연하게 확장할 수 있습니다. ## Oracle Cloud Infrastructure(OCI) 도입의 이점 * **비용 효율성:** 타사 하이퍼스케일러 클라우드 대비 인프라 비용을 약 40-50% 절감할 수 있어 대규모 배포에 유리합니다. * **다양한 배포 모델:** 공공 클라우드뿐만 아니라 정부 전용 클라우드, EU 주권 클라우드, 방화벽 내부의 전용 인프라 등 엄격한 규제를 준수하는 다양한 환경을 지원합니다. * **일관된 성능:** 고성능 클라우드 환경에서 일관된 툴링과 운영 경험을 제공하며, 하이브리드 및 글로벌 환경 전반에서 GitLab 배포를 표준화할 수 있습니다. ## 도입 권장 대상 및 결론 * GitLab Self-Managed의 통제권은 필요하지만 내부 인프라 전문가가 부족하여 운영 오버헤드를 최소화하고 싶은 조직에 권장됩니다. * 특히 엄격한 데이터 거주 요건(Data Residency)이나 보안 컴플라이언스를 준수해야 하는 금융, 공공, 의료 분야 기업에 적합한 솔루션입니다. * 기존 코드 저장소와 커스터마이징 설정을 OCI로 이전하는 마이그레이션 서비스도 지원하므로, 복잡한 현대화 과정을 안정적으로 수행하고자 하는 기업에게 실질적인 대안이 될 것입니다.

Amazon EC2 C8id, M8id, R8id 인스턴스, 최대 22.8 TB 로컬 NVMe 스토리지 일반 제공 | 아마존 웹 서비스 (새 탭에서 열림)

AWS가 커스텀 Intel Xeon 6 프로세서와 최대 22.8TB의 대용량 로컬 NVMe SSD를 탑재한 Amazon EC2 C8id, M8id, R8id 인스턴스를 출시했습니다. 이번 8세대 인스턴스는 이전 6세대 대비 컴퓨팅 성능은 최대 43%, 메모리 대역폭은 3.3배 향상되어 고성능 I/O가 요구되는 데이터베이스 및 실시간 분석 워크로드에 최적화되었습니다. 특히 최대 384개의 vCPU와 3TiB의 메모리를 지원하여 대규모 애플리케이션의 확장성과 운영 효율성을 획기적으로 개선했습니다. ### 인스턴스 패밀리별 특화 용도 * **C8id (컴퓨팅 최적화):** 비디오 인코딩, 이미지 조작 등 고속·저지연 로컬 스토리지가 필수적인 컴퓨팅 집약적 작업에 적합합니다. * **M8id (범용):** 데이터 로깅, 미디어 처리 등 컴퓨팅과 메모리 리소스의 균형이 필요한 워크로드에 최적의 성능을 제공합니다. * **R8id (메모리 최적화):** 대규모 SQL/NoSQL 데이터베이스, 인메모리 DB, 대규모 데이터 분석 및 AI 추론 등 고용량 메모리가 필요한 환경을 위해 설계되었습니다. ### 하드웨어 사양 및 확장성 * 6세대 인스턴스 대비 vCPU, 메모리, 로컬 스토리지 용량이 각각 3배 증가했습니다. * 최대 96xlarge 크기에서 384 vCPU, 3TiB RAM, 22.8TB 스토리지를 제공하며, 물리 리소스에 직접 접근해야 하는 환경을 위해 두 가지 베어메탈 사이즈(metal-48xl, metal-96xl)도 지원합니다. * I/O 집약적인 데이터베이스 워크로드에서 최대 46% 높은 성능을, 실시간 데이터 분석 쿼리에서 최대 30% 빠른 결과를 보여줍니다. ### 고급 네트워킹 및 가상화 기술 * **IBC(Instance Bandwidth Configuration):** 네트워크와 Amazon EBS 대역폭 사이에서 리소스를 유연하게 할당할 수 있으며, 필요에 따라 각 대역폭을 25%까지 확장할 수 있습니다. * **6세대 AWS Nitro 카드:** CPU 가상화, 스토리지, 네트워킹 기능을 전용 하드웨어로 오프로드하여 성능 병목을 줄이고 보안성을 강화했습니다. * **드라이버 호환성:** ENA(Elastic Network Adapter) 및 NVMe 드라이버가 포함된 최신 AWS Windows 및 Linux AMI를 통해 즉시 성능을 활용할 수 있습니다. ### 로컬 NVMe 스토리지 보안 및 관리 * **자동 인식:** 별도의 블록 디바이스 매핑 설정 없이도 부팅 후 `/dev/nvme` 장치로 자동 인식되어 사용이 간편합니다. * **하드웨어 암호화:** 모든 로컬 데이터는 XTS-AES-256 블록 암호를 통해 하드웨어 수준에서 암호화되며, 인스턴스 종료 시 고유 키가 파기되어 보안을 유지합니다. * **휘발성 주의:** 로컬 NVMe 스토리지의 데이터는 인스턴스의 수명 주기와 동일하므로, 인스턴스 중지(Stop)나 종료(Terminate) 시 데이터가 보존되지 않음에 유의해야 합니다. 현재 이 인스턴스들은 미국 동부(버지니아 북부, 오하이오), 미국 서부(오리건) 리전에서 사용 가능하며, 고성능 로컬 스토리지가 필요한 실시간 분석이나 대규모 데이터베이스를 운영하는 기업에 강력한 성능 향상 기회를 제공할 것입니다.

AWS 유럽 소버린 클 (새 탭에서 열림)

AWS가 유럽의 공공 부문과 고도로 규제된 산업의 디지털 주권 요구사항을 충족하기 위해 'AWS 유럽 소버린 클라우드(AWS European Sovereign Cloud)'의 정식 출시를 발표했습니다. 이 서비스는 기존 AWS 리전과 물리적·논리적으로 완전히 분리된 독립적인 인프라를 제공하며, 모든 데이터와 운영 제어권을 유럽 연합(EU) 내에 유지하도록 설계되었습니다. 이를 통해 유럽 고객들은 강력한 보안과 기술적 통제력을 갖춘 환경에서 최신 클라우드 기술을 활용하여 규제 준수와 혁신을 동시에 달성할 수 있게 되었습니다. ### 유럽 내 완전 독립형 인프라 가동 * **지리적 격리:** 첫 번째 리전은 독일 브란덴부르크에 위치하며, 기존의 글로벌 AWS 리전들과는 물리적으로나 시스템적으로 완전히 분리되어 운영됩니다. * **운영 자율성:** 중복된 전력 및 네트워킹 시스템을 갖춘 여러 가용 영역(Availability Zones)을 포함하며, 외부 세계와의 연결이 끊긴 상황에서도 지속적으로 작동할 수 있도록 설계되었습니다. * **독립적 거버넌스:** 유럽 내 독립적인 운영 주체에 의해 관리되며, 데이터 저장부터 처리까지 모든 과정이 유럽 사법권 체제 아래에서 투명하게 관리됩니다. ### 데이터 주권 및 규제 요구사항 최적화 * **엄격한 통제권:** 데이터 레지던시, 운영 제어 및 거버넌스 독립성에 대한 복잡한 규제 요구사항을 해결하여 공공기관 및 금융, 의료 등 규제가 엄격한 산업군에 최적화된 환경을 제공합니다. * **온프레미스 대체:** 기능이 제한된 기존의 온프레미스 환경이나 파편화된 소버린 솔루션 대신, AWS의 방대한 서비스 포트폴리오를 그대로 활용할 수 있는 완전한 클라우드 기능을 제공합니다. * **법적 및 기술적 보장:** 강력한 기술적 제어와 법적 보호 장치를 결합하여 유럽 고객들이 요구하는 최상위 수준의 주권 보증을 실현했습니다. ### 유럽 전역으로의 확장 및 유연한 배포 * **지역 확장 계획:** 독일을 시작으로 벨기에, 네덜란드, 포르투갈에 새로운 '소버린 로컬 존(Sovereign Local Zones)'을 구축하여 유럽 전역으로 서비스 범위를 넓힐 예정입니다. * **하이브리드 지원:** 고객의 자체 데이터 센터에서 사용할 수 있는 'AWS Outposts'나 전용 로컬 존, AI 팩토리 등을 통해 고객이 원하는 위치에서 주권 클라우드 인프라를 확장할 수 있습니다. * **풍부한 서비스 생태계:** 초기 출시 단계부터 보안, 컴퓨팅, 스토리지 등 핵심 서비스를 포함한 포괄적인 AWS 서비스 세트를 제공하여 기술적 제약 없는 전환을 지원합니다. 유럽 연합 내에서 엄격한 규제 준수가 필수적인 조직이라면, AWS 유럽 소버린 클라우드를 통해 데이터 주권 문제 해결과 현대적인 클라우드 네이티브 아키텍처 도입이라는 두 가지 목표를 동시에 검토해 보시기 바랍니다.

2025년 Stripe Atlas (새 탭에서 열림)

2025년 초기 단계 스타트업들은 과거 어느 때보다 빠른 속도로 창업하고 매출을 발생시키며 폭발적인 성장세를 기록하고 있습니다. 특히 창업 30일 이내에 첫 매출을 올리는 기업 비율이 2020년 대비 두 배 이상 증가했으며, 외부 투자 유치 여부와 관계없이 실질적인 비즈니스 성과를 내는 속도가 비약적으로 향상되었습니다. **국경을 초월한 글로벌 창업 생태계의 확산** - 2025년 Stripe Atlas를 통한 창업 국가는 169개국으로 역대 최고치를 기록했으며, 특히 영국·프랑스·독일을 중심으로 한 유럽 창업자 비중이 전년 대비 48% 급증했습니다. - 원격 근무의 보편화로 공동 창업자가 서로 다른 국가에 거주하는 '다국적 창업 팀'의 비중이 2017년 대비 79% 증가하여 전체의 24%를 차지합니다. - 과거에는 내수 시장 안착 후 해외 진출을 고려했으나, 현재는 창업 초기부터 평균 2개국 이상에서 매출을 발생시키는 '본 글로벌(Born Global)' 전략이 기본값이 되었습니다. - 결제 인프라와 클라우드 기술의 발전으로 물리적 거리나 로컬 서버에 대한 의존도가 낮아지면서 글로벌 네트워크를 즉시 활용하는 환경이 조성되었습니다. **수익 창출 및 성장의 가속화** - 창업 후 30일 이내에 첫 매출을 기록하는 기업 비중이 20%에 달하며, 첫 결제까지 걸리는 시간 중앙값은 34일로 전년 대비 11% 단축되었습니다. - 창업 6개월 내에 매출 10만 달러(약 1.3억 원)를 달성하는 기업은 전년 대비 56% 증가했으며, 해당 금액 도달 기간도 121일에서 108일로 짧아졌습니다. - 상위 10% 기업의 매출 성장 폭(52%)이 하위 기업보다 훨씬 크게 나타나며 성장의 양극화가 심화되고 있지만, 시장 전체의 수익 창출 시점은 상향 평준화되는 추세입니다. - 미국 세무 식별 번호(EIN) 없이도 즉시 결제를 수락할 수 있는 인프라 개선과 고도화된 개발 도구들이 이러한 속도 향상을 뒷받침하고 있습니다. **AI 중심의 비즈니스 모델 재편** - 전체 창업 기업 중 AI 스타트업이 차지하는 비중이 2023년 15%에서 2025년 42%로 급격히 상승했습니다. - 외부 투자를 받지 않는 소규모 팀이나 LLC(유한책임회사) 형태의 창업에서도 AI 기업 비중이 22%에 달하며 AI 기술이 비즈니스 전반에 보편화되었음을 보여줍니다. - 창업자들은 초기 단계의 AI 인프라 구축보다는 실제 사용자와 맞닿아 있는 'AI 에이전트' 서비스 개발에 더 많은 역량을 집중하고 있습니다. 현대의 창업자들은 더 이상 완벽한 제품이 나올 때까지 출시를 미루지 않으며, 결제 및 규제 준수 인프라를 활용해 첫날부터 전 세계 고객을 대상으로 수익화에 나설 것을 추천합니다. 이제 글로벌 시장은 선택이 아닌 생존을 위한 필수적인 초기 전략이 되었습니다.

AWS 주간 요약: AWS re (새 탭에서 열림)

AWS re:Invent 2025는 단순한 기술 발표를 넘어 AI 어시스턴트가 자율적인 'AI 에이전트'로 진화하는 중대한 변곡점을 시사했습니다. AWS는 개발자들에게 발명의 자유를 제공한다는 핵심 미션을 재확인하며, 자연어로 복잡한 작업을 수행하고 코드를 실행하는 에이전트 중심의 미래 비전을 제시했습니다. 이번 행사는 AI 투자가 실질적인 비즈니스 가치로 전환되는 시점에서 보안, 가용성, 성능이라는 클라우드의 본질적 가치를 다시 한번 강조했습니다. **AI 에이전트 중심의 비즈니스 혁신** * **어시스턴트에서 에이전트로의 진화:** 단순한 답변 제공을 넘어 스스로 계획을 세우고, 코드를 작성하며, 필요한 도구를 호출해 작업을 완수하는 자율형 에이전트가 핵심 기술로 부상했습니다. * **실질적 비즈니스 수익 창출:** AI가 단순한 실험 단계를 지나 기업의 업무를 자동화하고 효율성을 높임으로써 구체적인 재무적 성과를 내기 시작하는 단계에 진입했습니다. * **비결정적 특성에 최적화된 인프라:** 결과가 매번 다를 수 있는 AI 에이전트의 특성(Non-deterministic)을 고려하여, 안전하고 신뢰할 수 있으며 확장이 용이한 전용 인프라를 구축하고 있습니다. **아키텍트의 르네상스와 개발자 생태계** * **설계 역량의 재발견:** 기술적 세부 사항에 매몰되기보다 시스템 전체를 조망하고 설계하는 고수준 아키텍처 역량이 중요해진 '아키텍트의 르네상스' 시대가 도래했습니다. * **커뮤니티 기여의 가치:** 필리핀의 AWS 히어로 라피(Rafi)가 'Now Go Build' 상을 수상한 사례를 통해, 기술 혁신만큼이나 커뮤니티 빌딩과 개발자 역량 강화가 중요함을 강조했습니다. * **발명의 자유(Freedom to Invent):** 지난 20년간 AWS의 중심이었던 개발자들이 창의성을 발휘할 수 있도록 도구와 환경을 제공하는 것이 AWS의 변함없는 목표임을 천명했습니다. **클라우드 기반 기술의 지속적 고도화** * **커스텀 실리콘과 인프라:** 보안, 가용성, 성능이라는 클라우드의 기본 속성을 유지하면서도 AI 워크로드에 최적화된 하드웨어 혁신을 지속하고 있습니다. * **자연어 기반 솔루션 구현:** 사용자가 달성하고자 하는 목적을 자연어로 설명하면 시스템이 실행 가능한 솔루션으로 변환하는 인터페이스의 혁신이 가속화되고 있습니다. AI 에이전트가 주도하는 기술 환경 변화에 대응하기 위해, 기업들은 단순한 챗봇 도입을 넘어 비즈니스 프로세스 자체를 자동화할 수 있는 에이전트 활용 전략을 수립해야 합니다. AWS re:Invent 2025의 주요 세션 영상과 발표 자료가 온디맨드로 제공되고 있으므로, 조직의 요구 사항에 맞는 AI 아키텍처를 재설계하고 새로운 기술 도구들을 선제적으로 검토해 보시길 권장합니다.

관리형 DevOps 풀 – 탄생 비 (새 탭에서 열림)

마이크로소프트는 전사적으로 파편화되어 있던 5,000개 이상의 자가 호스팅 Azure DevOps 풀을 '1ES 호스팅 풀(1ES Hosted Pools)'이라는 단일 서비스로 통합하여 인프라 효율성과 보안성을 극대화했습니다. 이 시스템을 통해 인프라 비용을 60% 이상 절감하고 개발자들이 인프라 관리 대신 제품 개발에 집중할 수 있는 환경을 구축했으며, 내부적인 성공을 바탕으로 최근 외부 고객을 위한 '관리형 데브옵스 풀(Managed DevOps Pools, MDP)'을 출시했습니다. ### 분산된 자가 호스팅 환경의 문제점 * **중복 투자와 비효율:** 수천 개의 팀이 각자 유사한 인프라 관리 도구를 구축하는 데 개발 자원을 낭비했으며, 자동 스케일링 기능 부재로 사용하지 않는 자원에 비용이 지출되었습니다. * **낮은 신뢰성 및 지원 체계:** 팀 규모에 따라 지원 수준이 달라 장애 발생 시 CI/CD 파이프라인 복구 속도에 차이가 발생했습니다. * **보안 및 규정 준수의 어려움:** 인프라가 파편화되어 있어 보안 패치 여부를 추적하기 어렵고, 전사적인 보안 정책이나 컴플라이언스 기준을 일괄 적용하고 감사하는 데 막대한 시간이 소요되었습니다. ### 1ES 호스팅 풀의 핵심 기술적 기능 * **유연한 네트워크 및 이미지 구성:** 사설 네트워크 연결을 지원하여 내부 패키지 저장소나 비밀 관리자에 안전하게 접근할 수 있으며, 팀별 맞춤형 이미지를 베이스 이미지 위에 구축해 사용할 수 있습니다. * **상태 유지 및 성능 최적화:** 기본적으로는 작업마다 새 에이전트를 생성하는 상태 비저장(Stateless) 방식이지만, 로컬 캐시 활용이 필요한 경우 상태 유지(Stateful) 옵션을 제공하며 디스크 공간에 따른 자동 리사이클링을 지원합니다. * **지능형 리소스 관리:** 다양한 Azure SKU 선택은 물론, 과거 데이터를 기반으로 한 에이전트 사전 예열(Standby Agents) 기능을 통해 파이프라인 시작 시간을 단축했습니다. * **비즈니스 연속성 보장:** 특정 지역의 장애에 대비해 여러 지역에 백업 풀을 구성하여 에이전트를 즉시 가동할 수 있는 체계를 갖추었습니다. ### 표준화 시스템 도입의 성과 * **비용 절감:** Azure SPOT VM 활용과 워크로드에 최적화된 SKU 선택, 데이터 기반의 자원 활용도 개선을 통해 인프라 비용을 60% 이상 줄였습니다. * **보안 강화 및 중앙화:** Confidential VM, Trusted Launch, SecureTPM 등 고급 보안 기능을 모든 풀에 일괄 적용했으며, 일관된 텔레메트리 데이터를 통해 규정 준수 여부를 즉각적으로 확인할 수 있게 되었습니다. * **개발 생산성 향상:** 수천 개의 자가 호스팅 풀이 수십 개로 줄어들면서 인프라 관리 부담이 사라졌고, 팀 간 이동 시에도 동일한 도구를 사용하게 되어 개발 환경 적응 기간이 단축되었습니다. 현재 자체적으로 VM 확장 집합(Scale Set)이나 자가 호스팅 에이전트를 운영하며 관리 부담을 느끼고 있다면, 마이크로소프트의 내부 운영 노하우가 집약된 **Managed DevOps Pools(MDP)**로 전환하는 것을 추천합니다. 이를 통해 보안 수준을 높이는 동시에 운영 비용과 관리 오버헤드를 획기적으로 줄일 수 있습니다.

2023-03-08 사건: 우리의 사건 대응에 대한 심층 분석 | Datadog (새 탭에서 열림)

Datadog은 2023년 3월 발생한 사상 첫 글로벌 서비스 장애를 겪으며 자사의 장애 대응(Incident Response) 프로세스와 문화를 실전에서 검증했습니다. 수백 명의 엔지니어가 투입된 이번 사태를 통해 Datadog은 "직접 만든 사람이 직접 운영한다(You build it, you own it)"는 원칙과 비난 없는 사후 분석(Blameless Postmortem)의 중요성을 다시 한번 확인했습니다. 이 글은 전례 없는 대규모 장애 상황에서 유연한 의사결정과 체계적인 협업 시스템이 어떻게 복구를 견인했는지에 대한 기술적 기록을 담고 있습니다. **Datadog의 장애 모니터링 및 대응 체계** * **소유권 기반 모델:** 모든 엔지니어링 팀은 자신이 구축한 서비스의 운영을 직접 책임지며, 24시간 모니터링 경보에 몇 분 내로 응답해야 하는 "You build it, you own it" 모델을 따릅니다. * **대역 외(Out-of-band) 모니터링:** 플랫폼 자체가 중단될 경우를 대비해 인프라 외부에서 API를 호출하여 사용자 관점에서 상태를 체크하는 별도의 독립적인 모니터링 시스템을 운영합니다. * **Slack 기반 협업:** 장애 발생 시 전용 앱이 Slack 채널을 자동으로 생성하며, 관련 없는 엔지니어도 자유롭게 참여하여 도움을 줄 수 있는 개방적인 환경을 조성합니다. **고심도 장애(High-Severity) 관리 및 역할 분담** * **장애 지휘관(Incident Commander):** 대규모 장애 시 숙련된 시니어 엔지니어가 투입되어 전체 대응을 진두지휘하며, 복구 전략과 커뮤니케이션을 총괄합니다. * **전담 커뮤니케이션 팀:** 고객 지원 매니저와 경영진이 포함된 별도 팀이 구성되어 외부 고객 및 비즈니스 이해관계자에게 정확한 상태 정보를 전달합니다. * **지속적인 훈련:** 장애 선언 문턱을 낮게 설정하여 일상적으로 장애 대응 프로세스를 연습하며, 모든 엔지니어는 6개월마다 필수 리프레시 교육을 이수해야 합니다. **자율성과 비난 없는 조직 문화** * **절차보다 사람 우선:** 고정된 복구 매뉴얼은 복잡한 시스템의 변화 속도를 따라갈 수 없으므로, 엔지니어가 현장에서 상황에 맞는 최선의 판단을 내릴 수 있도록 자율권을 부여합니다. * **비난 없는 문화(Blameless Culture):** 장애의 원인을 개인의 실수가 아닌 시스템의 결함으로 간주하여, 엔지니어가 압박감 속에서도 창의적인 해결책을 찾을 수 있도록 지원합니다. * **강화된 사후 분석:** 모든 고심도 장애 이후에는 자동화된 알림을 통해 상세한 포스트모템 작성을 독려하며, 이를 통해 유사 장애의 재발을 방지합니다. **3월 8일 글로벌 장애 타임라인 및 초기 진단** * **장애 트리거(06:00 UTC):** systemd 업데이트가 시작되면서 예상치 못한 인프라 연쇄 반응이 발생했습니다. * **신속한 감지(06:03~06:18 UTC):** 장애 발생 3분 만에 모니터링 시스템이 문제를 감지했고, 15분 이내에 고심도 장애로 격상되었습니다. * **원인 파악(07:20~11:36 UTC):** 쿠버네티스(Kubernetes) 노드 실패가 글로벌 장애의 핵심 원인임을 식별했으며, 최종적으로 '무인 업데이트(Unattended upgrades)'가 트리거였음을 밝혀냈습니다. * **인프라 복구(12:05~19:00 UTC):** EU1 및 US1 리전의 컴퓨팅 용량을 순차적으로 복구하고 재발 방지를 위한 완화 조치를 적용하여 전체 인프라를 정상화했습니다. 대규모 시스템을 운영하는 조직이라면 고정된 대응 매뉴얼에 의존하기보다 엔지니어의 자율성을 존중하고, 장애를 학습의 기회로 삼는 비난 없는 문화를 구축하는 것이 중요합니다. 특히 플랫폼 전체가 마비되는 최악의 상황을 대비해 인프라 외부에서 독립적으로 작동하는 '대역 외 모니터링' 체계를 반드시 갖출 것을 추천합니다.

피그마 내부 이야기: 내부 웹 (새 탭에서 열림)

피그마는 웹 기반 디자인 도구로서 실시간 협업의 복잡성을 해결하기 위해 단일 모놀리스에서 정교한 분산 시스템으로 인프라를 확장해 왔습니다. 이들은 클라이언트측의 WebAssembly 성능과 백엔드의 안정적인 데이터 동기화 메커니즘을 결합하여, 전 세계 수백만 사용자가 동시에 지연 없이 작업할 수 있는 환경을 구축했습니다. 결과적으로 피그마의 기술적 성공은 화려한 기술의 도입보다는 실제 서비스 성장에 맞춘 실용적인 아키텍처 진화와 지속적인 최적화에 뿌리를 두고 있습니다. ### 실시간 협업을 위한 Multiplayer 서버 아키텍처 * 피그마의 핵심은 'Multiplayer'라고 불리는 상태 유지형(Stateful) 서버 시스템입니다. * 사용자가 파일을 열면 특정 서버 프로세스에 할당되며, 클라이언트는 WebSocket을 통해 이 서버와 실시간으로 통신합니다. * 서버는 문서의 현재 상태를 메모리에 유지하면서 여러 사용자의 편집 요청을 순서대로 처리하고, 변경 사항을 즉각적으로 모든 참여자에게 전파하여 충돌을 방지합니다. ### 데이터베이스 확장과 Vitess 도입 * 초기에는 단일 PostgreSQL 인스턴스로 시작했으나, 데이터 사용량이 폭증함에 따라 데이터베이스 확장성 한계에 직면했습니다. * 이를 해결하기 위해 데이터를 논리적으로 나누는 수직 분할(Vertical Partitioning)을 거쳐, 최종적으로는 수평 샤딩(Horizontal Sharding)으로 전환했습니다. * 이 과정에서 YouTube에서 개발한 오픈소스 데이터베이스 클러스터링 시스템인 'Vitess'를 도입하여, 애플리케이션 코드의 수정 없이도 수만 개의 샤드를 효율적으로 관리할 수 있는 구조를 만들었습니다. ### 성능 극대화를 위한 WebAssembly와 C++ 엔진 * 피그마의 그래픽 렌더링 엔진은 성능 극대화를 위해 C++로 작성되었으며, 이를 WebAssembly(Wasm)로 컴파일하여 브라우저에서 실행합니다. * 이는 일반적인 JavaScript 환경보다 훨씬 빠른 연산 속도를 제공하며, 대규모 디자인 파일에서도 데스크톱 앱 수준의 부드러운 사용자 경험을 보장합니다. * 클라이언트와 서버가 동일한 동기화 로직을 공유할 수 있도록 설계하여, 복잡한 협업 시나리오에서도 데이터의 정합성을 유지합니다. ### 시스템 신뢰성을 보장하는 시뮬레이션 테스트 * 동시성 문제가 발생하기 쉬운 실시간 환경의 특성을 고려하여, '결정론적 시뮬레이션(Deterministic Simulation)' 테스트를 수행합니다. * 수천 명의 가상 사용자가 무작위로 편집을 수행하거나 네트워크 지연이 발생하는 극한의 상황을 재현하여 시스템의 안정성을 검증합니다. * 이러한 철저한 테스트 자동화 덕분에 복잡한 인프라 변경이나 기능 업데이트 시에도 사용자 데이터 손실 없이 안정적인 서비스를 유지할 수 있습니다. ### 점진적 진화와 관찰 가능성(Observability) * 피그마는 초기부터 완벽한 시스템을 설계하기보다 서비스 규모에 맞춰 인프라를 단계적으로 개선하는 전략을 취했습니다. * 모든 시스템 구성 요소에 상세한 로깅과 대시보드를 구축하여, 장애가 발생하기 전 징후를 파악하고 신속하게 대응할 수 있는 환경을 조성했습니다. * 인프라 부서는 단순히 서버를 운영하는 것을 넘어, 제품 엔지니어가 확장성 고민 없이 기능을 개발할 수 있도록 추상화된 플랫폼을 제공하는 데 집중합니다. 피그마의 사례는 서비스 초기부터 오버엔지니어링을 하기보다, 병목 지점을 정확히 파악하고 적시에 Vitess나 WebAssembly 같은 핵심 기술을 도입하는 것이 얼마나 중요한지 보여줍니다. 실시간 협업 서비스를 설계한다면 상태 유지형 서버의 안정성과 데이터베이스 샤딩 전략을 최우선으로 고려할 것을 추천합니다.