gitops

3 개의 포스트

AWS 주간 소식: Amazon (새 탭에서 열림)

이번 주 AWS는 헬스케어 전용 AI 에이전트인 Amazon Connect Health의 정식 출시와 함께 Amazon Bedrock을 활용한 보안 및 개발 편의성 강화에 중점을 두었습니다. 인프라 측면에서는 VPC 암호화 제어의 유료화 전환과 데이터베이스 예약 플랜의 지원 범위 확대 등 운영 효율과 비용 최적화를 위한 실질적인 업데이트가 이루어졌습니다. 전 세계적으로 개최된 JAWS Days 2026과 케냐의 커뮤니티 이벤트를 통해 AI 기반 개발 팀 구축과 클라우드 네이티브 엔지니어링에 대한 뜨거운 관심을 확인할 수 있었습니다. **AI 에이전트 및 헬스케어 특화 서비스** - **Amazon Connect Health 정식 출시**: 환자 인증, 예약 관리, 환자 통찰력 제공, 진료 문서화 및 의료 코딩을 지원하는 5가지 전용 AI 에이전트를 선보였습니다. HIPAA를 준수하며 기존 임상 워크플로에 수일 내로 배포가 가능합니다. - **Amazon Bedrock AgentCore 정책 지원**: 에이전트 코드 외부에서 도구 간 상호작용을 중앙 집중식으로 제어할 수 있습니다. 자연어로 정의된 보안 규칙은 AWS의 오픈소스 정책 언어인 Cedar로 자동 변환되어 적용됩니다. - **Lightsail 기반 OpenClaw 도입**: 사용자의 클라우드 인프라에 프라이빗 자율 AI 에이전트를 원클릭 HTTPS 및 기기 페어링 인증을 통해 안전하게 배포하고 Slack이나 Discord 등에 연결할 수 있습니다. **인프라 보안 및 비용 관리 업데이트** - **VPC 암호화 제어 유료화**: 2026년 3월 1일부터 프리뷰 기간이 종료되어 유료로 전환됩니다. 리전 내외의 모든 트래픽 암호화를 모니터링하거나 강제할 수 있는 기능을 제공합니다. - **데이터베이스 Savings Plans 확대**: Amazon OpenSearch 서비스 및 Neptune Analytics가 지원 대상에 추가되어, 1년 약정 시 최대 35%의 비용을 절감할 수 있게 되었습니다. - **콘솔 내 IAM 역할 생성 간소화**: EC2, Lambda, EKS, Glue 등 주요 서비스의 워크플로 내에서 IAM 콘솔로 이동하지 않고도 즉시 역할을 생성하고 구성할 수 있는 패널이 추가되었습니다. **개발자 경험 및 운영 자동화** - **Elastic Beanstalk AI 분석 기능**: 환경 상태가 악화될 경우 Amazon Bedrock이 로그와 인스턴스 상태를 분석하여 단계별 트러블슈팅 권장 사항을 제공합니다. - **GameLift 서버 DDoS 보호**: 추가 비용 없이 릴레이 네트워크를 통해 클라이언트 트래픽을 인증하고 플레이어당 트래픽 제한을 설정하여 멀티플레이어 게임을 공격으로부터 보호합니다. - **Lambda 지속성 함수 개발 지원**: AI 에이전트 기반 개발 도구인 'Kiro'를 통해 재실행 모델, 에러 처리, 동시 실행 패턴 등 복잡한 워크플로 개발에 필요한 가이드를 동적으로 제공받을 수 있습니다. 이번 업데이트를 통해 AWS는 AI를 단순한 모델 제공을 넘어 의료 현장의 실무나 인프라 장애 조치와 같은 구체적인 운영 영역에 깊숙이 통합하고 있음을 보여줍니다. 특히 보안 정책을 자연어로 관리하거나 인프라 진단에 AI를 활용하는 기능들은 운영 부담을 크게 줄여줄 것으로 기대되므로, 현재 운영 중인 서비스의 효율성을 높이기 위해 이러한 도구들을 적극적으로 검토해 보시길 권장합니다.

수천 개의 API/BATCH 서버를 하나의 설정 체계로 관리하기 (새 탭에서 열림)

토스페이먼츠는 수천 개의 API 서버와 배치 설정을 관리하기 위해 설정을 단순한 텍스트가 아닌 '진화하는 코드'로 정의하여 운영합니다. 복사-붙여넣기식의 중복 설정을 제거하기 위해 오버레이 아키텍처와 템플릿 패턴을 도입했으며, 이를 통해 오타나 설정 오류로 인한 대규모 정산 장애 리스크를 원천 차단합니다. 결과적으로 인프라 설정을 테스트 가능한 영역으로 끌어올려 대규모 하이브리드 클라우드 환경에서도 높은 안정성과 유연성을 확보했습니다. ### 실시간 API 서버: 오버레이와 템플릿의 결합 * **오버레이 아키텍처:** 설정을 `global`, `cluster`, `phase`, `application` 순서의 계층형 구조로 설계하여 하위 계층이 상위 계층의 기본값을 덮어쓰도록 구성했습니다. 이를 통해 공통 설정은 한 번만 정의하고 각 환경에 필요한 차이점만 관리할 수 있습니다. * **템플릿 패턴 도입:** YAML의 단순 오버레이만으로는 해결하기 어려운 긴 문자열(예: JVM 옵션) 내의 특정 값만 수정하기 위해 `{{MAX_HEAP}}`과 같은 변수 치환 방식을 사용합니다. * **동적 설정 주입:** 설정 파일 내부에 파이썬 스크립트를 삽입하여 랜덤 포트 생성이나 외부 API 호출을 통한 동적 값 할당이 가능하며, 클러스터 이름에 따른 조건부 로직을 적용해 복잡한 환경 변수 요구사항을 해결합니다. ### 배치 서버: DSL과 GitOps를 통한 단순화 * **Jenkins 기반의 단순화:** 대규모 정산 데이터를 다루는 배치 환경일수록 단순함이 강력하다는 원칙 아래, Jenkins를 활용하면서도 수동 조작의 단점을 보완하는 방향을 택했습니다. * **Groovy DSL 활용:** Jenkins의 웹 UI를 통한 수동 설정을 배제하고, Groovy 기반의 자체 DSL(Domain Specific Language)을 구축하여 수천 개의 배치 Job을 코드 형태로 관리합니다. * **GitOps 체계:** 모든 배치 설정을 코드 저장소에서 관리하고 CI/CD 파이프라인과 통합함으로써, 개발자가 직접 Jenkins에 접속하지 않고도 표준화된 환경에서 배치 작업을 배포할 수 있도록 개선했습니다. ### 인프라의 코드화와 검증 자동화 * **테스트 가능한 설정:** 설정값에 대한 오타나 논리적 오류를 방지하기 위해 설정 코드에 대한 유닛 테스트를 수행합니다. 이를 통해 수천 개의 설정 중 단 하나의 오타가 치명적인 금융 장애로 이어지는 것을 사전에 방지합니다. * **유연한 확장성:** 고정된 설정 체계에 안주하지 않고, 인프라의 변화와 개발자의 요구사항에 맞춰 설정 인프라 자체가 계속해서 진화할 수 있는 구조를 지향합니다. 단순히 설정 파일을 잘 작성하는 것에 그치지 않고, 인프라 설정을 애플리케이션 코드와 동일한 수준의 설계와 테스트를 거쳐 관리하는 것이 대규모 시스템의 안정성을 보장하는 핵심입니다. 초기에 다소 복잡해 보일 수 있는 오버레이나 DSL 도입은 장기적으로 중복을 제거하고 휴먼 에러를 막는 가장 확실한 투자입니다.

Central Dogma 컨트롤 플레인으로 LY Corporation의 수천 개 서비스를 연결하기 (새 탭에서 열림)

LY Corporation은 수천 개의 서비스를 효율적으로 연결하기 위해 Central Dogma를 활용한 통합 컨트롤 플레인(Control Plane)을 구축했습니다. 기존 레거시 시스템의 한계를 극복하고 xDS 표준 프로토콜을 도입함으로써, 물리 서버(PM), 가상 머신(VM), 쿠버네티스(K8s)를 아우르는 유연한 서비스 메시 환경을 구현했습니다. 이 시스템은 GitOps 기반의 설정 관리와 사이드카 없는(Sidecar-less) 아키텍처 지원을 통해 개발자 경험과 시스템 성능을 동시에 향상시키는 성과를 거두었습니다. ### 레거시 시스템의 한계와 새로운 요구사항 * **타이트한 결합과 동적 등록의 부재:** 기존 시스템은 특정 프로젝트 관리 도구(PMC)에 강하게 의존하고 있어 서비스의 동적인 변경사항을 즉각적으로 반영하기 어려웠습니다. * **상호 운용성 부족:** 자체 커스텀 메시지 스키마를 사용했기 때문에 Envoy나 다른 오픈소스 에코시스템과의 통합이 제한적이었습니다. * **제한적인 트래픽 제어:** 단순한 레지스트리 역할에 치중되어 있어 서킷 브레이커, 카나리 배포, 세밀한 로드 밸런싱 등 현대적인 컨트롤 플레인 기능을 수행하기에 부족함이 있었습니다. ### Central Dogma 컨트롤 플레인의 설계 및 구현 * **xDS 프로토콜 표준화:** 업계 표준인 xDS 프로토콜을 채택하여 Envoy 프록시 및 gRPC 클라이언트와 원활하게 통신할 수 있는 기반을 마련했습니다. * **GitOps 기반 관리:** Central Dogma의 Git 기반 저장소 특성을 활용해 설정 변경 사항을 버전 관리하고, 외부 Git 저장소(GitHub 등)와의 미러링을 통해 안전하게 설정을 배포합니다. * **하이브리드 인프라 지원:** PM, VM 환경의 레거시 데이터와 K8s의 엔드포인트를 모두 수용할 수 있도록 플러그인 구조를 설계하여 통합적인 엔드포인트 관리를 가능케 했습니다. * **고신뢰성 및 인증:** 다중 데이터센터 복제를 통해 가용성을 확보하고, 강력한 인증 시스템을 통합하여 보안성을 강화했습니다. ### 사이드카 없는 서비스 메시(Sidecar-less Service Mesh) * **리소스 및 복잡성 해결:** 일반적인 서비스 메시에서 발생하는 사이드카 프록시의 리소스 오버헤드와 운영 복잡성을 줄이기 위해 Proxyless 방식을 도입했습니다. * **라이브러리 수준의 통합:** gRPC 및 Armeria 라이브러리를 사용하여 애플리케이션이 컨트롤 플레인과 직접 xDS로 통신하게 함으로써 사이드카 없이도 서비스 메시의 이점을 누릴 수 있게 했습니다. * **효율적인 통신 제어:** 별도의 프록시 계층을 거치지 않고도 클라이언트 사이드 로드 밸런싱, 자동 재시도, 존 인식 라우팅(Zone-aware routing) 등을 직접 수행하여 성능을 최적화했습니다. 대규모 인프라에서 수천 개의 서비스를 연결해야 한다면, xDS와 같은 표준 프로토콜을 준수하면서도 기존에 검증된 구성 관리 도구(Central Dogma 등)를 컨트롤 플레인으로 확장하는 전략이 유효합니다. 특히 운영 효율성과 성능이 중요하다면 사이드카 없는 방식의 서비스 메시 도입을 적극적으로 고려해 볼 만합니다.