aws-lambda

9 개의 포스트

AWS Weekly Roundup: Anthropic & Meta partnership, AWS Lambda S3 Files, Amazon Bedrock AgentCore CLI, and more (April 27, 2026) | Amazon Web Services (새 탭에서 열림)

이번 AWS 주간 소식은 Anthropic 및 Meta와의 전략적 파트너십 강화와 생성형 AI 에이전트 개발을 가속화하는 기술적 진보에 초점을 맞추고 있습니다. AWS는 실리콘 레벨에서의 최적화와 서버리스 기술의 고도화를 통해 복잡한 AI 워크로드를 더 효율적으로 처리할 수 있는 환경을 구축하고 있습니다. 결과적으로 개발자들은 하 인프라의 복잡성에서 벗어나 더 정교하고 협업 중심적인 AI 애플리케이션 구축에 집중할 수 있게 되었습니다. **Anthropic 및 Meta와의 전략적 파트너십 확대** - Anthropic은 AWS Trainium 및 Graviton 인프라를 활용해 최신 파운데이션 모델을 학습시키며, 하드웨어와 소프트웨어 스택 전반의 효율성을 극대화하기 위해 Annapurna Labs와 협력합니다. - Amazon Bedrock 내에서 'Claude Cowork'가 출시되어, 기업 고객들은 AWS의 보안 환경을 유지하면서 팀 단위의 협업 AI 워크플로우를 직접 배포할 수 있습니다. - Meta는 추론, 코드 생성, 다단계 작업 오케스트레이션 등 CPU 집약적인 에이전트 중심 AI 워크로드를 위해 수천만 개의 AWS Graviton 코어를 도입하기로 합의했습니다. **Lambda 및 Aurora의 서버리스 기능 강화** - **Lambda S3 Files:** Amazon EFS를 기반으로 구축된 이 기능을 통해 Lambda 함수가 S3 버킷을 파일 시스템으로 마운트할 수 있으며, 데이터 다운로드 없이 표준 파일 작업을 수행할 수 있어 AI 모델의 메모리 유지 및 상태 공유가 용이해졌습니다. - **Aurora Serverless 성능 향상:** 새로운 플랫폼 버전 4에서는 이전보다 최대 30% 향상된 성능과 스마트 스케일링 알고리즘을 제공하며, 사용하지 않을 때는 비용이 발생하지 않는 'Scale to zero' 기능을 유지합니다. - **EKS Hybrid Nodes 게이트웨이:** 온프레미스와 클라우드 간의 복잡한 네트워크 인프라 변경 없이도 하이브리드 Kubernetes 환경의 네트워킹을 자동화하여 포드 간 통신을 간소화합니다. **AI 에이전트 개발 및 운영 효율화 도구** - **Bedrock AgentCore:** 새로운 CLI와 관리형 하네스(Managed Harness)를 도입하여 오케스트레이션 코드 없이도 모델, 프롬프트, 도구를 정의해 즉시 에이전트 프로토타입을 실행하고 이를 IaC(AWS CDK 등)로 내보낼 수 있습니다. - **세분화된 비용 할당:** Amazon Bedrock 사용량을 태그 기반으로 상세하게 추적할 수 있게 되어, 여러 팀이나 프로젝트를 운영하는 조직에서 정밀한 비용 가시성과 비용 재청구(Chargeback)가 가능해졌습니다. - **SageMaker 추론 최적화 권장:** 생성형 AI 모델 배포 시 최적의 인스턴스 타입, 컨테이너, 추론 파라미터를 자동으로 식별하여 비용을 절감하고 응답 속도를 개선합니다. **실무자를 위한 교육 및 이벤트 정보** - **무료 마이크로디그리(Microcredentials):** AWS Skill Builder를 통해 실제 라이브 환경에서 구성, 트러블슈팅, 최적화 기술을 검증하는 실무형 인증 과정을 무료로 이용할 수 있습니다. - **AWS Summit Seoul:** 오는 5월 20일 서울에서 개최되는 서밋을 포함하여 전 세계 주요 도시에서 최신 클라우드 및 AI 혁신 사례를 공유하는 오프라인 행사가 진행될 예정입니다. 생성형 AI를 실제 서비스에 적용하려는 개발자라면 Bedrock AgentCore를 통한 신속한 프로토타이핑을 시도해보고, 비용 최적화를 위해 Graviton 기반 인스턴스와 SageMaker의 추론 권장 기능을 적극적으로 활용해 보시기 바랍니다.

AWS 주간 소식: Amazon Bedrock의 Claude Mythos 프리뷰, AWS Agent Registry 등 (2026년 4월 13일) | Amazon Web Services (새 탭에서 열림)

AWS는 이번 발표를 통해 AI 모델의 실험 단계를 넘어 실제 운영 환경에서의 비용 투명성과 관리 효율성을 높이는 데 주력하고 있습니다. 특히 Amazon Bedrock의 비용 할당 기능과 새로운 에이전트 레지스트리는 기업이 AI 자원을 체계적으로 거버넌스하고 최적화할 수 있는 기틀을 마련해 줍니다. 결과적으로 개발 가속화와 동시에 재무적 가시성을 확보하려는 기업들에게 실질적인 해결책을 제시하고 있습니다. ### AI 비용 관리 및 거버넌스 체계 구축 * **IAM 기반 Bedrock 비용 할당**: 이제 IAM 사용자 및 역할별로 Amazon Bedrock 사용 비용을 할당할 수 있습니다. 팀이나 비용 센터별로 태그를 지정해 AWS Cost Explorer 및 상세 비용 보고서(CUR)에서 모델 추론 비용을 명확히 추적할 수 있어 AI 투자의 가시성이 크게 향상되었습니다. * **AWS Agent Registry 출시**: 기업 내 AI 에이전트, 도구, MCP(Model Context Protocol) 서버 등을 통합 관리하는 프라이빗 카탈로그입니다. 시맨틱 검색과 승인 워크플로를 통해 중복 개발을 방지하고, CloudTrail을 통한 감사 추적 기능을 제공하여 에이전트 기반 시스템의 거버넌스를 강화합니다. ### 보안 및 관리형 AI 서비스 확장 * **Claude Mythos 프리뷰**: Anthropic의 가장 정교한 보안 특화 모델이 Amazon Bedrock에 연구 프리뷰 형태로 출시되었습니다. 소프트웨어 취약점 식별 및 대규모 코드베이스 분석에 탁월하며, 현재는 인터넷 주요 인프라 기업 및 오픈소스 유지 관리자를 중심으로 접근이 제한적으로 허용됩니다. * **Amazon WorkSpaces Advisor**: 생성형 AI를 활용하여 IT 관리자의 업무를 돕는 도구입니다. 가상 데스크톱 환경의 구성을 분석하고 문제를 자동으로 감지하여, 서비스 복구 및 성능 최적화를 위한 구체적인 권장 사항을 제공합니다. ### 고성능 데이터 스토리지 및 관측성 강화 * **Amazon S3 Files**: S3 버킷을 Amazon EFS 기술 기반의 파일 시스템으로 직접 연결하여 사용할 수 있습니다. 코드 수정 없이도 기존 파일 시스템 세맨틱을 유지하면서 초당 수 테라비트의 읽기 처리량을 확보할 수 있으며, S3 API와 파일 인터페이스를 동시에 사용할 수 있는 유연성을 제공합니다. * **OpenSearch 통합 관측성 지원**: Managed Prometheus 및 에이전트 트레이싱 기능이 추가되었습니다. 로그, 메트릭, 트레이스를 하나의 인터페이스에서 통합 관리할 수 있으며, 특히 LLM 실행 가시성을 위한 OpenTelemetry GenAI 시맨틱 컨벤션을 지원하여 AI 운영의 효율성을 높였습니다. ### 양자 컴퓨팅 및 고급 컴퓨팅 옵션 * **Rigetti 108 큐비트 QPU 지원**: Amazon Braket에서 Rigetti의 'Cepheus' 프로세서를 사용할 수 있게 되었습니다. 100 큐비트 이상의 초전도 양자 프로세서로, 펄스 수준의 제어가 가능하여 연구자들이 더 복잡한 양자 알고리즘을 테스트할 수 있는 환경을 제공합니다. * **AWS Lambda 매니지드 인스턴스**: 서버리스의 장점을 유지하면서도 메모리 집약적인 애플리케이션을 지원할 수 있도록 Lambda 인프라 옵션이 확장되어, 가벼운 워크로드를 넘어선 복잡한 계산 작업도 처리가 가능해졌습니다. 성공적인 AI 운영을 위해서는 도입 초기부터 **IAM 태그를 활용한 비용 할당 정책**을 수립하는 것이 권장됩니다. 또한, Amazon Bedrock에서 사용 중인 파운데이션 모델의 **생명주기(Lifecycle)** 문서를 정기적으로 확인하여, 모델 업데이트 및 단종 계획에 따른 서비스 중단 위험을 사전에 방지하시기 바랍니다.

AWS 주간 소식: Amazon Bedrock의 NVIDIA Nemotron 3 Super, Nova Forge SDK, Amazon Corretto 26 등(2026년 3월 23일) | Amazon Web Services (새 탭에서 열림)

AWS는 최근 NVIDIA Nemotron 3 Super 모델의 Amazon Bedrock 추가와 Nova Forge SDK 출시를 통해 생성형 AI 생태계를 대폭 확장하고, 엔터프라이즈급 AI 맞춤화 기능을 강화했습니다. 동시에 Amazon Redshift의 쿼리 성능을 최대 7배 향상시키고 Amazon EKS의 가용성 실효 수준(SLA)을 99.99%로 높이는 등 클라우드 인프라의 성능과 신뢰성 측면에서도 유의미한 진전을 이루었습니다. 이번 업데이트는 개발자 중심의 도구 개선과 고성능 워크로드 지원이라는 AWS의 핵심 전략을 잘 보여줍니다. **생성형 AI 모델 및 맞춤화 도구 확장** * **NVIDIA Nemotron 3 Super 출시:** Amazon Bedrock API를 통해 NVIDIA의 고성능 언어 모델인 Nemotron 3 Super를 사용할 수 있게 되었습니다. 텍스트 생성, 복잡한 추론, 요약, 코드 생성에 최적화되어 있으며 별도의 인프라 관리 없이 기존 워크플로우에 통합 가능합니다. * **Nova Forge SDK 도입:** 기업용 Nova 모델을 도메인 특화 데이터에 맞게 미세 조정(Fine-tuning)하고 배포할 수 있는 간소화된 수단을 제공하여 맞춤형 AI 솔루션 구축의 복잡성을 낮췄습니다. * **에이전트 정확도 향상:** Strands 에이전트 팀이 발표한 'Steering Hooks' 기법을 통해 AI 에이전트의 정확도를 100%까지 달성했으며, 이는 기존 프롬프트 엔지니어링보다 뛰어난 제어 능력을 보여줍니다. **데이터 분석 및 컴퓨팅 인프라 성능 고도화** * **Amazon Redshift 성능 개선:** 대시보드 및 ETL 워크로드에서 캐시되지 않은 새로운 쿼리의 실행 속도가 최대 7배 빨라졌습니다. 이는 쿼리 변동성이 큰 대화형 대시보드의 대기 시간을 획기적으로 줄여줍니다. * **Amazon EKS SLA 및 확장성 강화:** 프로비저닝된 컨트롤 플레인 클러스터의 SLA가 99.99%로 상향되었으며, 4XL 대비 처리 용량이 2배인 8XL 스케일링 티어를 도입하여 대규모 AI/ML 학습 및 데이터 처리 환경을 지원합니다. * **AWS Lambda 가용 영역(AZ) 메타데이터 지원:** 함수 호출 시 실행 중인 AZ 정보를 확인할 수 있게 되어, 지연 시간에 민감한 멀티 AZ 워크로드의 관찰 가능성과 문제 해결 능력이 향상되었습니다. **개발자 편의성 및 운영 효율성 증대** * **Amazon Corretto 26 정식 출시:** OpenJDK의 최신 장기 지원(LTS) 버전인 Corretto 26이 출시되어 최신 Java 기능과 보안 패치를 다양한 운영체제에서 무료로 사용할 수 있습니다. * **CloudWatch Logs HTTP 기반 로그 수집:** 커스텀 에이전트나 SDK 없이 표준 HTTP 엔드포인트를 통해 로그를 직접 전송할 수 있게 되어 중앙 집중식 로그 관리 장벽이 낮아졌습니다. * **학생용 Kiro 지원:** 미래의 개발자들이 AI 기반 개발 도구를 무료로 경험할 수 있도록 Kiro 서비스를 학생들에게 개방했습니다. 이번 업데이트를 통해 엔터프라이즈 환경에서는 Nova Forge SDK를 활용한 도메인 특화 AI 모델 구축을 검토해 볼 가치가 있으며, 고가용성이 필요한 대규모 워크로드 운영 시 강화된 EKS 8XL 티어와 99.99% SLA를 적극 활용하는 것을 추천합니다. 또한 2026년 4월부터 시작되는 파리, 런던 등 전 세계 AWS 서밋 일정을 확인하여 최신 기술 트렌드를 직접 확인하시기 바랍니다.

AWS 주간 업데이트: Amazon Bedrock (새 탭에서 열림)

이번 AWS Weekly Roundup은 생성형 AI 에이전트의 워크플로우 강화와 데이터 보안 및 운영 효율성을 높이는 다양한 업데이트를 다루고 있습니다. 특히 Amazon Bedrock의 서버 측 도구 지원과 S3의 암호화 관리 방식 개선 등 개발자가 더욱 안전하고 고도화된 애플리케이션을 구축할 수 있도록 돕는 기능들이 대거 출시되었습니다. 이번 업데이트들을 통해 기업들은 인프라 관리의 복잡성을 줄이면서도 고성능의 탄력적인 클라우드 환경을 구현할 수 있게 되었습니다. ### Amazon Bedrock 및 AI 에이전트 워크플로우 강화 * **서버 측 도구 지원**: Bedrock 에이전트가 AWS 보안 경계 내에서 웹 검색, 코드 실행, 데이터베이스 업데이트 등의 작업을 수행할 수 있는 서버 측 도구 기능이 추가되었습니다. (OpenAI GPT OSS 20B/120B 모델 지원) * **프롬프트 캐싱 TTL 확장**: 멀티 턴(multi-turn) 대화의 성능을 높이고 비용을 절감하기 위해 프롬프트 캐싱에 1시간 TTL(Time-to-Live) 옵션이 도입되었습니다. * **자연어 기반 배포(MCP Server)**: AI 에이전트가 자연어 프롬프트만으로 AWS CDK 인프라를 생성하고 CloudFormation 스택을 배포할 수 있는 표준 운영 절차(SOP)가 미리보기로 제공됩니다. ### 데이터 보안 및 네트워크 연결성 최적화 * **S3 객체 암호화 변경**: `UpdateObjectEncryption` API를 통해 데이터를 이동하거나 다시 업로드하지 않고도 기존 객체의 서버 측 암호화 유형(SSE-S3에서 SSE-KMS 등)을 변경하거나 키를 교체할 수 있습니다. * **SageMaker Unified Studio 프라이빗 연결**: AWS PrivateLink를 지원하여 공용 인터넷을 거치지 않고 VPC와 SageMaker Unified Studio 간의 안전한 데이터 통신이 가능해졌습니다. * **Network Firewall 가시성**: 생성형 AI 애플리케이션 트래픽을 식별하는 웹 카테고리가 추가되어, AI 도구에 대한 액세스 제어 및 URL 수준의 필터링이 가능합니다. ### 데이터베이스 및 이벤트 기반 아키텍처 성능 향상 * **Amazon Keyspaces 테이블 예열(Pre-warming)**: 높은 읽기/쓰기 트래픽이 예상되는 시점에 미리 테이블을 예열하여 콜드 스타트 지연 없이 즉각적인 처리량을 확보할 수 있습니다. * **EventBridge 페이로드 용량 확대**: 이벤트 페이로드 제한이 기존 256KB에서 1MB로 크게 늘어나, 대규모 JSON 구조나 텔레메트리 데이터를 외부 저장소 없이 한 번에 전송할 수 있습니다. * **DynamoDB MRSC 결함 주입 테스트**: AWS Fault Injection Service와 통합되어 다중 리전 강력한 일관성(MRSC) 글로벌 테이블의 리전 장애 시뮬레이션 및 복원력 검증이 가능합니다. ### 모니터링 및 운영 도구 개선 * **Lambda-Kafka 관측성 강화**: Kafka 이벤트 소스 매핑에 대한 CloudWatch 로그 및 지표가 추가되어, 폴링 설정 및 스케일링 상태를 더욱 세밀하게 모니터링할 수 있습니다. * **AI 지원 관측성 워크플로우**: Amazon CloudWatch Application Signals와 Kiro의 통합으로 AI 에이전트의 도움을 받아 서비스 상태 및 SLO 준수 여부를 더 빠르게 조사할 수 있습니다. 이번 업데이트의 핵심은 AI 에이전트가 실제 비즈니스 로직을 안전하게 수행하도록 돕는 인프라를 구축하고, 대규모 데이터 처리 시 발생하는 운영상의 병목 현상을 제거하는 데 있습니다. 특히 S3 암호화 변경이나 EventBridge 용량 확대와 같은 기능은 기존 아키텍처의 수정 없이도 운영 효율을 즉각적으로 개선할 수 있는 실용적인 변화이므로 적극적인 도입 검토를 추천합니다.

AWS 주간 요약: .NET용 AWS Lambda 10, AWS 클라이언트 VPN 빠른 시작, AWS re:Invent 베스트 및 기타 (2026년 1월 12일) (새 탭에서 열림)

2026년 1월 초 AWS의 주요 업데이트 소식을 다루며, 특히 .NET 10 기반의 AWS Lambda 지원과 Amazon ECS의 tmpfs 마운트 기능 등 개발 생산성을 높이는 신규 기능들을 소개합니다. 또한 AWS re:Invent 2025의 핵심 발표 내용과 함께, 클라우드 기술 역량 강화를 위해 6개월간 최대 200달러의 크레딧을 제공하는 프리티어 혜택을 강조하고 있습니다. 최종적으로 개발자와 아키텍트가 최신 클라우드 기술을 실무에 빠르게 적용할 수 있도록 돕는 다양한 가이드와 커뮤니티 소식을 전달합니다. ### 주요 서비스 및 기술 업데이트 - **AWS Lambda .NET 10 지원**: .NET 10 버전의 관리형 런타임 및 컨테이너 베이스 이미지를 공식 지원하며, AWS에서 관리형 런타임에 대한 업데이트를 자동으로 수행합니다. - **Amazon ECS tmpfs 마운트 확장**: AWS Fargate 및 Linux 기반 관리형 인스턴스에서 tmpfs 마운트를 지원하여, 데이터를 디스크에 쓰지 않고 메모리 내 파일 시스템을 활용함으로써 성능을 최적화할 수 있습니다. - **Amazon MQ 인증 방식 강화**: RabbitMQ 브로커에 대해 HTTP 기반 인증 플러그인을 설정할 수 있으며, 상호 TLS(mTLS)를 통한 인증서 기반 인증 방식을 새롭게 지원합니다. - **Amazon MWAA 및 AWS Config 업데이트**: Apache Airflow 2.11 버전을 지원하여 Airflow 3로의 업그레이드 준비를 돕고, AWS Config에서 SageMaker 및 S3 Tables 등 추가적인 리소스 타입을 관리할 수 있게 되었습니다. - **AWS Client VPN 퀵스타트**: VPN 인프라 구성 과정을 단순화하여 상호 인증 모델을 사용한 VPN 엔드포인트를 보다 빠르게 배포할 수 있는 도구를 제공합니다. ### re:Invent 2025 다시보기 및 커뮤니티 인사이트 - **주요 세션 공개**: AWS 공식 유튜브 채널을 통해 re:Invent 2025의 기조연설과 기술 세션 영상이 제공되어 생성형 AI, 데이터베이스 등 최신 기술 트렌드를 학습할 수 있습니다. - **전문가 추천 콘텐츠**: AWS Hero들이 Amazon Bedrock, CDK, S3 Tables, Aurora Limitless Database 등 혁신적인 신규 서비스와 관련된 핵심 세션을 요약하여 추천합니다. - **커뮤니티 블로그**: 전 세계 AWS 전문가들이 작성한 re:Invent 요약 글을 통해 기술적 통찰력을 공유받을 수 있습니다. ### 글로벌 행사 및 교육 기회 - **AWS 프리티어 혜택**: 신규 사용자는 6개월 동안 최대 200달러의 크레딧과 30개 이상의 상시 무료 서비스를 통해 리스크 없이 클라우드 환경을 실험해 볼 수 있습니다. - **향후 이벤트 일정**: 파리, 암스테르담 등에서 열리는 AWS Summit과 바르샤바 AWS Cloud Day 등 글로벌 컨퍼런스가 예정되어 있어 지속적인 네트워킹과 학습이 가능합니다. AI와 클라우드 전문성을 키우고자 한다면 이번에 강화된 AWS 프리티어 혜택을 활용해 .NET 10 런타임이나 신규 VPN 퀵스타트 도구를 직접 실습해 보는 것을 추천합니다. 특히 대규모 데이터 처리가 필요한 워크로드라면 ECS의 tmpfs 마운트 기능을 통해 I/O 성능을 개선할 수 있는 기회를 검토해 보시기 바랍니다.

AWS Lambda Durable Functions를 사용하여 다단계 (새 탭에서 열림)

AWS Lambda Durable Functions의 출시로 개발자들은 별도의 상태 관리 인프라를 구축하지 않고도 복잡한 다단계 애플리케이션과 AI 워크플로우를 익숙한 Lambda 환경에서 구현할 수 있게 되었습니다. 이 기능은 '체크포인트 및 재실행(Checkpoint and Replay)' 메커니즘을 통해 실행 상태를 자동으로 추적하며, 실행 도중 실패가 발생하더라도 마지막 완료 지점부터 작업을 재개합니다. 특히 대기 상태에서는 컴퓨팅 비용이 발생하지 않으면서도 최대 1년까지 실행을 일시 중단할 수 있어, 결제 처리나 사용자 승인이 필요한 장기 프로세스에 최적화된 솔루션을 제공합니다. ### 지속성 실행(Durable Execution)의 핵심 메커니즘 * **체크포인트 및 재실행:** Durable execution SDK를 사용하면 함수가 실행될 때마다 진행 상황이 자동으로 기록됩니다. 예기치 않은 오류로 실행이 중단되더라도 Lambda는 처음부터 핸들러를 다시 실행하되, 이미 완료된 단계는 스킵하고 마지막 체크포인트부터 비즈니스 로직을 이어갑니다. * **비용 효율적인 대기:** 실행 중 특정 지점에서 실행을 일시 중단하면 컴퓨팅 자원 할당이 해제되어 유휴 비용이 발생하지 않습니다. 이후 정의된 조건이 충족되면 자동으로 실행이 재개됩니다. ### 워크플로우 제어를 위한 주요 프리미티브(Primitives) * **context.step():** 비즈니스 로직에 자동 재시도 및 체크포인트 기능을 추가합니다. 해당 단계가 성공적으로 완료되면 이후 재실행 시 다시 수행되지 않도록 보장합니다. * **context.wait():** 지정된 기간 동안 함수의 실행을 중단합니다. 최대 1년까지 대기가 가능하며, 대기 기간 동안에는 비용이 청구되지 않습니다. * **create_callback():** 외부 API 응답이나 사람의 직접적인 승인과 같은 외부 이벤트를 기다릴 수 있는 콜백을 생성합니다. * **wait_for_condition():** REST API 폴링 등을 통해 특정 조건이 충족될 때까지 실행을 일시 정지합니다. * **parallel() 및 map():** 복잡한 병렬 처리 및 동시성 유스케이스를 지원하여 효율적인 리소스 활용을 돕습니다. ### 서비스 도입 시 고려사항 * **설정 방식:** Durable Functions 기능은 Lambda 함수를 처음 생성하는 단계에서만 활성화할 수 있으며, 기존에 이미 생성된 함수에는 소급 적용이 불가능합니다. * **개발 환경:** 함수 생성 시 'Durable execution' 옵션을 활성화한 후, 코드 내에 오픈 소스로 제공되는 Durable Execution SDK를 포함하여 비즈니스 로직을 작성해야 합니다. * **활용 사례:** 주문 처리 프로세스, AI 에이전트의 다단계 추론 오케스트레이션, 인적 승인이 필요한 결재 시스템 등 상태 유지가 필수적인 워크로드에 강력한 이점을 제공합니다. AWS Lambda Durable Functions는 Step Functions와 같은 외부 오케스트레이션 도구 없이도 코드 수준에서 상태ful한 워크플로우를 관리할 수 있게 해줍니다. 단순한 이벤트 처리를 넘어 긴 호흡의 비즈니스 로직을 관리해야 하는 백엔드 개발자나 AI 엔지니어에게 매우 실용적인 도구가 될 것입니다.

Squeezing every millisecond: How we rebuilt the Datadog Lambda Extension in Rust (새 탭에서 열림)

Datadog은 기존 Go 기반의 AWS Lambda 확장이 가진 높은 오버헤드를 해결하기 위해, 이를 Rust 언어로 완전히 재작성한 'Project Bottlecap'을 진행했습니다. 이를 통해 콜드 스타트 시간을 82% 단축하고 메모리 사용량을 40% 절감했으며, 바이너리 크기를 55MB에서 7MB로 줄이는 획기적인 성능 개선을 달성했습니다. 결과적으로 리소스가 제한된 서버리스 환경에서도 사용자 애플리케이션에 영향을 주지 않고 고정밀 텔레메트리 데이터를 수집할 수 있게 되었습니다. ### 기존 범용 에이전트 기반 설계의 한계 - 초기 Datadog Lambda 확장은 다중 호스트나 클러스터 환경에 최적화된 기존 Datadog 에이전트 코드를 기반으로 구축되었습니다. - 범용 에이전트는 대규모 처리량과 캐싱, 버퍼링에 초점이 맞춰져 있어 리소스가 극도로 제한된 람다의 단기 실행 환경에는 부적합했습니다. - 종속성 제거, 바이너리 압축(UPX), 지연 로딩 등 모든 최적화 수단을 동원했음에도 불구하고 콜드 스타트 지연 시간이 450~500ms 이하로 내려가지 않는 성능 한계에 직면했습니다. - 결국 범용 도구와 서버리스 전용 도구의 스케일 차이를 인정하고, 밑바닥부터 다시 작성하는 결정을 내렸습니다. ### Lambda 환경에서 Rust 언어의 전략적 이점 - **안정성 및 메모리 안전성:** 람다 확장이 충돌하면 함수 전체가 종료되고 샌드박스가 초기화되어 다시 콜드 스타트가 발생하는데, Rust는 컴파일 타임에 메모리 안전성을 보장하여 이러한 위험을 최소화합니다. - **바이너리 경량화:** 가비지 컬렉터와 대규모 런타임이 포함된 Go와 달리, Rust는 킬로바이트 또는 낮은 메가바이트 단위의 매우 작은 바이너리를 생성하여 초기 로딩 시간을 줄입니다. - **제한된 환경의 이점:** 람다는 아마존 리눅스와 x86/Arm 아키텍처라는 고정된 환경만 고려하면 되므로, 다양한 환경을 지원해야 하는 시스템 프로그래밍에서 Rust가 가질 수 있는 복잡성 문제가 크게 완화되었습니다. ### Project Bottlecap의 핵심 설계 원칙 - **철저한 성능 오버헤드 통제:** 모든 풀 리퀘스트(PR)마다 벤치마크를 수행하여 성능 저하를 감시했으며, 성능 향상을 위해 공식 AWS SDK 사용을 포기하고 직접 AWS API 호출과 서명 로직을 작성하는 트레이드오프를 감수했습니다. - **핸들러 영향 최소화:** 람다 확장 API를 활용하여 함수 핸들러가 결과를 반환한 후에 텔레메트리를 처리함으로써, 사용자 API 응답 속도에 미치는 영향을 제거했습니다. - **다양한 플러시(Flush) 전략:** 리소스 사용량이 적은 API 함수부터 대규모 배치 작업까지 대응할 수 있도록 데이터 전송 시점을 유연하게 설정할 수 있는 구조를 갖추었습니다. 범용 소프트웨어를 특정 환경에 맞춰 최적화하는 것에는 한계가 있습니다. 특히 실행 시간과 리소스 사용량이 곧 비용과 직결되는 서버리스 환경에서는, 해당 환경의 제약 조건을 반영한 전용 도구를 구축하는 것이 초기 개발 비용이 높더라도 장기적으로 성능과 안정성 측면에서 압도적인 이점을 제공합니다.

How Datadog's IT team automated account inactivity and SaaS spend management (새 탭에서 열림)

데이터독(Datadog)은 급격히 증가하는 SaaS 라이선스 비용을 최적화하고 보안 리스크를 줄이기 위해 기존의 내부 도구인 'Clarity'를 'Clarity License Manager(CLM)'로 확장했습니다. 이 시스템은 여러 SaaS 애플리케이션의 사용자 활동을 자동으로 모니터링하여 비활성 계정을 식별하고, 사용자 알림 및 자동 비활성화 프로세스를 통해 운영 효율성을 극대화합니다. 결과적으로 데이터독은 불필요한 비용 지출을 막는 동시에, 미사용 계정으로 인한 보안 위협을 효과적으로 제거하고 직원들에게는 원활한 계정 복구 경험을 제공하고 있습니다. ### 기존 라이선스 관리의 문제점 * 과거 IT 지원 팀은 분기별로 수동 감사를 수행하여 라이선스 사용 현황을 파악했으나, 이는 매우 비효율적이고 지루한 작업이었습니다. * IT 직원이 사용자에게 일일이 연락해 계정 유지 여부를 확인해야 했기 때문에 직원들의 업무 흐름을 방해하는 등 사용자 경험이 저하되었습니다. * 실시간 데이터에 기반한 인사이트가 부족하여 소프트웨어 구매 시 데이터에 기반한 의사결정을 내리기 어려웠습니다. ### 자동화된 라이선스 최적화 워크플로우 * 개별 SaaS API와 Google Workspace SAML 감사 로그를 결합하여 사용자 활동 데이터를 유연하고 보안상 안전한 방식으로 수집합니다. * 특정 기간(기본 90일) 동안 앱을 사용하지 않은 사용자에게 Slack과 이메일로 자동 알림을 발송하여 활성 상태 유지에 필요한 구체적인 행동을 안내합니다. * 사용자가 안내된 조치를 취하지 않을 경우 CLM이 해당 SaaS 계정을 자동으로 비활성화하며, 이 데이터는 Amazon RDS(Postgres)에 저장되어 관리됩니다. * 재접속이 필요한 직원을 위해 티켓 시스템(Freshservice)과 연동된 자동 복구 워크플로우를 구축하여, 단 몇 초 만에 이전 권한 그대로 계정을 복구할 수 있게 했습니다. ### 마이크로서비스 및 어댑터 기반 아키텍처 * Python과 AWS Lambda를 기반으로 한 마이크로서비스 구조를 채택하여 SaaS 환경의 확장에 유연하게 대응하고 시스템 회복 탄력성을 높였습니다. * 각 SaaS 애플리케이션의 고유한 로직을 처리하기 위해 '애플리케이션별 어댑터(Adapter)' 패턴을 도입했습니다. * 어댑터는 사용자 조회, 로그인 데이터 획득, 활성화/비활성화 등 공통 인터페이스를 제공하여 메인 마이크로서비스 로직과 개별 앱의 복잡한 API 통신 로직을 분리합니다. * 이러한 설계는 단일 책임 원칙(Single Responsibility)을 준수하며 코드의 재사용성을 높이고, 새로운 SaaS 도구를 시스템에 빠르게 통합할 수 있게 합니다. 기업의 규모가 커질수록 수동 라이선스 관리는 비용 누수와 보안 취약점을 야기하는 큰 부담이 됩니다. Datadog의 CLM 사례처럼 사용자 활동 데이터를 기반으로 비활성 계정을 자동 관리하고, 셀프 서비스 형태의 복구 프로세스를 갖추는 것은 비용 절감과 보안 강화라는 두 마리 토끼를 잡을 수 있는 실무적인 해법이 될 수 있습니다.

How Datadog's IT team automated monitoring third-party accounts (새 탭에서 열림)

현대 기업이 사용하는 수많은 SaaS 애플리케이션의 계정을 수동으로 관리하는 것은 보안 위협과 비용 낭비를 초래할 수 있는 매우 어렵고 비효율적인 작업입니다. Datadog은 이를 해결하기 위해 사내 인사 관리 시스템(HRIS)인 Workday를 단일 진실 공급원(Single Source of Truth)으로 삼아 SaaS 계정을 자동으로 전수 조사하는 자체 도구 'Clarity'를 구축했습니다. 이 시스템은 정기적인 감사를 통해 퇴사자나 미승인 계정을 실시간으로 탐지하고, 티켓팅 및 알림 시스템과 연동하여 즉각적인 조치를 가능하게 함으로써 기업의 보안 거버넌스를 강화합니다. **SaaS 계정 감사의 필요성과 요구사항** * **보안 및 비용 관리:** 관리되지 않는 유령 계정은 민감 데이터 유출의 통로가 될 수 있으며, 불필요한 라이선스 비용을 발생시키므로 정기적이고 자동화된 감사가 필수적입니다. * **신뢰할 수 있는 데이터원 확보:** 모든 직원의 상태를 정확히 반영하는 Workday(또는 Okta, ADP 등)를 기준으로 삼아 SaaS 앱의 사용자 목록과 대조해야 합니다. * **운영 효율성:** 감사는 수시로 자동 실행될 수 있어야 하며, 필요에 따라 수동 실행도 가능해야 합니다. 또한 기존 업무 흐름을 방해하지 않도록 사내에서 이미 사용 중인 도구들과 긴밀하게 통합되어야 합니다. **Clarity의 작동 아키텍처 및 프로세스** * **자동 실행 및 데이터 수집:** AWS CloudWatch Event Rule을 통해 매일 정해진 시간에 실행되며, AWS Lambda를 사용하여 Workday와 주요 SaaS(Slack, GitHub, Zoom 등)의 활성 사용자 명단을 동시에 가져옵니다. * **교차 검증(Auditing):** SaaS 앱의 이메일 주소 목록을 Workday의 현직자 명단과 비교하여, 일치하는 기록이 없는 계정을 즉시 식별합니다. * **데이터 이력 관리:** 감사 결과 발견된 비정상 계정 정보는 추후 추적 및 분석을 위해 DynamoDB 테이블에 기록됩니다. **로깅, 알림 및 사후 조치 통합** * **Datadog 메트릭 활용:** 탐지된 각 계정 정보는 Datadog Metrics API를 통해 전송됩니다. 이때 'gauge' 타입을 사용하여 시간 경과에 따른 비정상 계정 추이를 시각화합니다. * **태그 기반의 상세 분석:** 메트릭 전송 시 환경(prod/dev), 담당 팀, 해당 SaaS 서비스명, 사용자 이메일 등을 태그로 포함하여 문제 발생 시 즉각적인 식별이 가능하도록 합니다. * **워크플로우 연동:** 감사가 완료되면 Freshservice를 통해 자동으로 조치 티켓을 생성하고, Slack으로 요약 보고서를 발송하여 담당 팀이 Datadog 로그 링크를 통해 즉시 상세 내용을 확인할 수 있게 합니다. SaaS 환경이 확장됨에 따라 수동 감사는 한계에 부딪힐 수밖에 없습니다. Datadog의 사례처럼 인사 시스템을 API로 연결하고 기존의 모니터링 및 알림 도구(Slack, Jira 등)를 통합한 자동화 파이프라인을 구축한다면, 최소한의 운영 리소스로도 기업 전체의 SaaS 보안 가시성을 획기적으로 높일 수 있습니다.