cloud-computing

5 개의 포스트

커스텀 인텔 (새 탭에서 열림)

AWS가 Intel Xeon 6 프로세서를 탑재한 차세대 메모리 최적화 인스턴스인 Amazon EC2 X8i의 정식 출시를 발표했습니다. 이 인스턴스는 이전 세대인 X2i 대비 최대 1.5배의 메모리 용량과 3.4배의 대역폭을 제공하여 대규모 데이터베이스 및 분석 작업에 최적화되었습니다. 특히 SAP 인증을 획득하여 SAP HANA와 같은 고성능 인메모리 워크로드에서 압도적인 효율성을 보여줍니다. **커스텀 Intel Xeon 6 기반의 독보적인 성능** * AWS 전용으로 설계된 커스텀 Intel Xeon 6 프로세서를 탑재하여 전 코어 3.9GHz의 지속적인 터보 주파수를 제공합니다. * 이전 세대(X2i)와 비교했을 때 전체적으로 최대 43%의 성능 향상을 실현했습니다. * 최대 6TB의 메모리 용량을 지원하며, 메모리 대역폭은 3.4배 더 넓어져 데이터 집약적인 처리에 유리합니다. **주요 워크로드별 벤치마크 및 비용 효율성** * SAP HANA 워크로드에서 이전 세대 대비 최대 50% 향상된 SAPS(SAP Application Performance Standard) 성능을 기록했습니다. * PostgreSQL 성능은 최대 47%, Memcached는 최대 88%, AI 추론 성능은 최대 46%까지 개선되었습니다. * 실제 고객 사례인 Orion의 경우, X8i의 높은 성능 덕분에 활성 코어 수를 줄이면서도 동일 성능을 유지하여 SQL Server 라이선스 비용을 50% 절감했습니다. **유연한 인스턴스 규격과 대역폭 옵션** * 가상화 인스턴스(48xlarge, 64xlarge, 96xlarge 등)부터 베어메탈(metal-48xl, metal-96xl)까지 총 14가지 크기를 제공합니다. * 최대 100Gbps의 네트워크 대역폭(EFA 지원)과 80Gbps의 Amazon EBS 대역폭을 통해 대규모 데이터 전송 병목 현상을 최소화합니다. * IBC(Instance Bandwidth Configuration) 기능을 지원하여 사용자가 필요에 따라 네트워크와 EBS 대역폭 할당량을 조정할 수 있습니다. **가용성 및 구매 방식** * 현재 미국 동부(버지니아 북부), 미국 서부(오레곤), 유럽(프랑크푸르트, 아일랜드), 아시아 태평양(시드니, 도쿄) 리전에서 즉시 사용 가능합니다. * 온디맨드, 예약 인스턴스(RI), Savings Plans 및 스팟 인스턴스 등 다양한 구매 옵션을 통해 비용을 최적화할 수 있습니다. SAP HANA와 같은 대규모 인메모리 데이터베이스를 운영하거나, 높은 컴퓨팅 파워와 방대한 메모리가 동시에 필요한 EDA(전자 설계 자동화) 및 데이터 분석 환경이라면 X8i 인스턴스로의 전환을 통해 성능 향상과 라이선스 비용 절감 효과를 동시에 거둘 수 있을 것입니다.

AWS 주간 소식 (새 탭에서 열림)

2026년 1월 초 AWS의 주요 업데이트 소식을 다루며, 특히 .NET 10 기반의 AWS Lambda 지원과 Amazon ECS의 tmpfs 마운트 기능 등 개발 생산성을 높이는 신규 기능들을 소개합니다. 또한 AWS re:Invent 2025의 핵심 발표 내용과 함께, 클라우드 기술 역량 강화를 위해 6개월간 최대 200달러의 크레딧을 제공하는 프리티어 혜택을 강조하고 있습니다. 최종적으로 개발자와 아키텍트가 최신 클라우드 기술을 실무에 빠르게 적용할 수 있도록 돕는 다양한 가이드와 커뮤니티 소식을 전달합니다. ### 주요 서비스 및 기술 업데이트 - **AWS Lambda .NET 10 지원**: .NET 10 버전의 관리형 런타임 및 컨테이너 베이스 이미지를 공식 지원하며, AWS에서 관리형 런타임에 대한 업데이트를 자동으로 수행합니다. - **Amazon ECS tmpfs 마운트 확장**: AWS Fargate 및 Linux 기반 관리형 인스턴스에서 tmpfs 마운트를 지원하여, 데이터를 디스크에 쓰지 않고 메모리 내 파일 시스템을 활용함으로써 성능을 최적화할 수 있습니다. - **Amazon MQ 인증 방식 강화**: RabbitMQ 브로커에 대해 HTTP 기반 인증 플러그인을 설정할 수 있으며, 상호 TLS(mTLS)를 통한 인증서 기반 인증 방식을 새롭게 지원합니다. - **Amazon MWAA 및 AWS Config 업데이트**: Apache Airflow 2.11 버전을 지원하여 Airflow 3로의 업그레이드 준비를 돕고, AWS Config에서 SageMaker 및 S3 Tables 등 추가적인 리소스 타입을 관리할 수 있게 되었습니다. - **AWS Client VPN 퀵스타트**: VPN 인프라 구성 과정을 단순화하여 상호 인증 모델을 사용한 VPN 엔드포인트를 보다 빠르게 배포할 수 있는 도구를 제공합니다. ### re:Invent 2025 다시보기 및 커뮤니티 인사이트 - **주요 세션 공개**: AWS 공식 유튜브 채널을 통해 re:Invent 2025의 기조연설과 기술 세션 영상이 제공되어 생성형 AI, 데이터베이스 등 최신 기술 트렌드를 학습할 수 있습니다. - **전문가 추천 콘텐츠**: AWS Hero들이 Amazon Bedrock, CDK, S3 Tables, Aurora Limitless Database 등 혁신적인 신규 서비스와 관련된 핵심 세션을 요약하여 추천합니다. - **커뮤니티 블로그**: 전 세계 AWS 전문가들이 작성한 re:Invent 요약 글을 통해 기술적 통찰력을 공유받을 수 있습니다. ### 글로벌 행사 및 교육 기회 - **AWS 프리티어 혜택**: 신규 사용자는 6개월 동안 최대 200달러의 크레딧과 30개 이상의 상시 무료 서비스를 통해 리스크 없이 클라우드 환경을 실험해 볼 수 있습니다. - **향후 이벤트 일정**: 파리, 암스테르담 등에서 열리는 AWS Summit과 바르샤바 AWS Cloud Day 등 글로벌 컨퍼런스가 예정되어 있어 지속적인 네트워킹과 학습이 가능합니다. AI와 클라우드 전문성을 키우고자 한다면 이번에 강화된 AWS 프리티어 혜택을 활용해 .NET 10 런타임이나 신규 VPN 퀵스타트 도구를 직접 실습해 보는 것을 추천합니다. 특히 대규모 데이터 처리가 필요한 워크로드라면 ECS의 tmpfs 마운트 기능을 통해 I/O 성능을 개선할 수 있는 기회를 검토해 보시기 바랍니다.

AWS 주간 소식 요약 (새 탭에서 열림)

AWS re:Invent 2025는 단순한 기술 발표를 넘어 AI 어시스턴트가 자율적인 'AI 에이전트'로 진화하는 중대한 변곡점을 시사했습니다. AWS는 개발자들에게 발명의 자유를 제공한다는 핵심 미션을 재확인하며, 자연어로 복잡한 작업을 수행하고 코드를 실행하는 에이전트 중심의 미래 비전을 제시했습니다. 이번 행사는 AI 투자가 실질적인 비즈니스 가치로 전환되는 시점에서 보안, 가용성, 성능이라는 클라우드의 본질적 가치를 다시 한번 강조했습니다. **AI 에이전트 중심의 비즈니스 혁신** * **어시스턴트에서 에이전트로의 진화:** 단순한 답변 제공을 넘어 스스로 계획을 세우고, 코드를 작성하며, 필요한 도구를 호출해 작업을 완수하는 자율형 에이전트가 핵심 기술로 부상했습니다. * **실질적 비즈니스 수익 창출:** AI가 단순한 실험 단계를 지나 기업의 업무를 자동화하고 효율성을 높임으로써 구체적인 재무적 성과를 내기 시작하는 단계에 진입했습니다. * **비결정적 특성에 최적화된 인프라:** 결과가 매번 다를 수 있는 AI 에이전트의 특성(Non-deterministic)을 고려하여, 안전하고 신뢰할 수 있으며 확장이 용이한 전용 인프라를 구축하고 있습니다. **아키텍트의 르네상스와 개발자 생태계** * **설계 역량의 재발견:** 기술적 세부 사항에 매몰되기보다 시스템 전체를 조망하고 설계하는 고수준 아키텍처 역량이 중요해진 '아키텍트의 르네상스' 시대가 도래했습니다. * **커뮤니티 기여의 가치:** 필리핀의 AWS 히어로 라피(Rafi)가 'Now Go Build' 상을 수상한 사례를 통해, 기술 혁신만큼이나 커뮤니티 빌딩과 개발자 역량 강화가 중요함을 강조했습니다. * **발명의 자유(Freedom to Invent):** 지난 20년간 AWS의 중심이었던 개발자들이 창의성을 발휘할 수 있도록 도구와 환경을 제공하는 것이 AWS의 변함없는 목표임을 천명했습니다. **클라우드 기반 기술의 지속적 고도화** * **커스텀 실리콘과 인프라:** 보안, 가용성, 성능이라는 클라우드의 기본 속성을 유지하면서도 AI 워크로드에 최적화된 하드웨어 혁신을 지속하고 있습니다. * **자연어 기반 솔루션 구현:** 사용자가 달성하고자 하는 목적을 자연어로 설명하면 시스템이 실행 가능한 솔루션으로 변환하는 인터페이스의 혁신이 가속화되고 있습니다. AI 에이전트가 주도하는 기술 환경 변화에 대응하기 위해, 기업들은 단순한 챗봇 도입을 넘어 비즈니스 프로세스 자체를 자동화할 수 있는 에이전트 활용 전략을 수립해야 합니다. AWS re:Invent 2025의 주요 세션 영상과 발표 자료가 온디맨드로 제공되고 있으므로, 조직의 요구 사항에 맞는 AI 아키텍처를 재설계하고 새로운 기술 도구들을 선제적으로 검토해 보시길 권장합니다.

Amazon SageMaker HyperPod에서 체크포 (새 탭에서 열림)

Amazon SageMaker HyperPod은 대규모 AI 모델 학습의 효율성을 극대화하기 위해 '체크포인트리스(Checkpointless) 학습'과 '엘라스틱(Elastic) 학습' 기능을 새롭게 출시했습니다. 이 기술들은 하드웨어 장애 발생 시 복구 시간을 획기적으로 단축하고 클러스터 자원 활용도를 자동 최적화하여 전체 개발 주기를 대폭 앞당깁니다. 이를 통해 엔지니어는 인프라 관리 부담에서 벗어나 모델 성능 고도화와 시장 출시 속도 향상에 더욱 집중할 수 있습니다. ### 체크포인트리스 학습을 통한 중단 없는 상태 복구 기존의 체크포인트 기반 복구는 작업 종료, 재시작, 네트워크 설정, 체크포인트 검색 및 로드 등 복잡한 단계를 거치느라 최대 1시간 이상의 다운타임이 발생하곤 했습니다. 체크포인트리스 학습은 이러한 병목 현상을 해결하기 위해 다음과 같은 기술적 요소를 도입했습니다. * **피어 투 피어(P2P) 상태 복제**: 모델의 상태를 클러스터 내의 건강한 노드(Peer)에 실시간으로 복제하여 저장하며, 장애 발생 시 체크포인트를 불러오는 대신 이웃 노드로부터 즉시 상태를 복구합니다. * **복구 시간 단축**: 전통적인 방식 대비 복구 시간을 분 단위로 줄였으며, 내부 테스트 결과 2,000개 이상의 GPU 환경에서도 다운타임을 80% 이상 감소시키는 성과를 보였습니다. * **4가지 핵심 구성 요소**: 집합 통신 초기화 최적화, 캐싱이 가능한 메모리 매핑 데이터 로딩, 프로세스 내 복구(In-process recovery), 그리고 P2P 상태 복제 기술이 유기적으로 결합되어 작동합니다. * **검증된 확장성**: 수만 개의 가속기를 활용한 Amazon Nova 모델 학습에 이미 성공적으로 적용되어 대규모 환경에서의 안정성을 입증했습니다. ### 자원 활용을 극대화하는 엘라스틱 학습 엘라스틱 학습은 클러스터의 가용 자원 상태에 따라 학습 워크로드의 규모를 유연하게 조절하는 기능입니다. 인프라의 가변적인 상황에 맞춰 학습 효율을 최대로 끌어올립니다. * **자동 확장 및 축소**: 클러스터 내에 유휴 자원이 발생하면 학습 규모를 자동으로 확장하고, 추론 서비스와 같은 고우선순위 작업이 몰릴 때는 자원을 즉시 반납하며 축소합니다. * **운영 효율성**: 매주 수동으로 인프라 설정을 변경하던 엔지니어링 시간을 절약할 수 있으며, 클러스터 활용도를 높여 전체 학습 완료 시간을 단축합니다. * **우선순위 기반 할당**: 비즈니스 요구사항에 따라 자원을 재배치함으로써 고비용의 컴퓨팅 자원을 낭비 없이 사용할 수 있도록 지원합니다. ### 실용적인 권장 사항 수천 개의 GPU를 사용하는 초거대 모델 학습 환경에서는 하드웨어 장애가 빈번하게 발생할 수밖에 없습니다. 인프라 장애로 인한 학습 중단 리스크를 최소화하고 싶은 팀은 SageMaker HyperPod의 체크포인트리스 학습을 도입하여 복구 골든타임을 확보할 것을 권장합니다. 특히 가변적인 인프라 환경에서 비용 효율성을 중시한다면 엘라스틱 학습 기능을 활성화하여 클러스터 유휴 자원을 100% 활용하는 전략이 유효할 것입니다.

가상 머신 퍼즐 (새 탭에서 열림)

구글 리서치와 딥마인드가 개발한 LAVA는 클라우드 데이터 센터의 자원 효율성을 극대화하기 위해 가상 머신(VM)의 수명을 실시간으로 예측하고 적응하는 새로운 스케줄링 알고리즘입니다. 기존의 단발성 예측 방식에서 벗어나 VM이 실행되는 동안 지속적으로 남은 수명을 재예측하는 방식을 채택하여 자원 파편화와 낭비를 획기적으로 줄였습니다. 이 시스템은 실제 구글의 대규모 클러스터 관리 시스템인 Borg에 적용되어 빈 호스트 확보 및 자원 활용도 측면에서 유의미한 성능 향상을 입증했습니다. ## 수명 예측의 불확실성과 연속 재예측 기술 * 클라우드 VM의 수명은 매우 불확실하며, 대다수의 단기 VM(88%)이 아주 적은 자원(2%)만 사용하는 반면 극소수의 장기 VM이 대부분의 자원을 점유하는 롱테일(Long-tail) 분포를 보입니다. * LAVA는 생존 분석(Survival Analysis)에서 영감을 얻은 머신러닝 모델을 사용하여 VM 수명을 단일 값이 아닌 확률 분포로 예측함으로써 내재된 불확실성을 관리합니다. * "연속 재예측(Continuous Reprediction)" 기능을 통해 VM이 실행되는 동안 축적된 정보를 바탕으로 남은 수명을 실시간으로 업데이트하며, 이를 통해 초기 예측 오류를 스스로 수정하고 정확도를 높입니다. ## NILAS: 기존 시스템에 통합되는 비침습적 스케줄링 * NILAS(Non-Invasive Lifetime Aware Scheduling)는 기존 구글의 Borg 스케줄러 점수 함수에 수명 예측 데이터를 통합한 알고리즘입니다. * 새로운 VM을 배치할 때 해당 호스트에 이미 있는 VM들의 예상 종료 시간을 고려하여, 비슷한 시기에 종료될 VM들을 한곳에 모읍니다. * 이 방식은 특정 시점에 호스트 내의 모든 VM이 동시에 종료되도록 유도하여, 대규모 작업이나 유지보수에 필수적인 '빈 호스트'를 더 많이 확보하는 데 기여합니다. ## LAVA와 LARS를 통한 자원 배치 및 재배치 최적화 * **LAVA (Lifetime-Aware VM Allocation):** 장기 VM이 점유 중인 호스트의 남은 유휴 공간에 아주 짧은 수명의 VM들을 배치하는 전략입니다. 이는 자원 파편화(Resource Stranding)를 방지하며, 단기 VM이 빠르게 종료되므로 호스트의 전체 수명에 영향을 주지 않고 효율을 높입니다. * **LARS (Lifetime-Aware Rescheduling):** 데이터 센터 유지보수나 파편화 제거가 필요할 때, 예측된 수명이 긴 VM부터 우선적으로 다른 호스트로 이주시킵니다. 수명이 짧은 VM은 이주시키지 않고 자연스럽게 종료되도록 기다림으로써 불필요한 시스템 중단과 이동 비용을 최소화합니다. LAVA의 도입은 예측 불가능한 사용자 워크로드를 다루는 클라우드 인프라에서 단순한 정적 규칙보다 실시간 데이터 기반의 적응형 알고리즘이 훨씬 효과적임을 시사합니다. 이러한 접근법은 대규모 데이터 센터 운영에서 경제적 효율성을 높일 뿐만 아니라, 서버 가동률 최적화를 통해 에너지 소비를 줄이는 환경적 지속 가능성 측면에서도 중요한 솔루션이 될 수 있습니다.