AWS / machine-learning

7 개의 포스트

aws

20 years in the AWS Cloud – how time flies! | Amazon Web Services (새 탭에서 열림)

AWS는 지난 20년 동안 240개 이상의 클라우드 서비스를 구축하며 기술 혁신의 표준을 제시해 왔습니다. 단순한 인프라 제공을 넘어 딥러닝, 생성형 AI, 그리고 에이전트형 AI로 이어지는 기술 트렌드를 고객 중심의 관점에서 선도하고 있습니다. 특히 지난 10년은 컨테이너, 서버리스, 커스텀 실리콘, 그리고 AI 민주화를 통해 개발자와 기업이 이전에는 불가능했던 가치를 창출할 수 있도록 생태계를 확장해 온 과정이었습니다. ### 기술 트렌드에 대응하는 AWS의 혁신 철학 * 2006년 Amazon S3 출시 이후 AWS는 API 경제를 개척하며 개인 연구자와 기업 모두가 대규모 프로젝트를 수행할 수 있는 강력한 도구를 제공하기 시작했습니다. * AWS의 혁신은 단순히 화려한 유행을 쫓는 것이 아니라, 고객의 실제 목소리에 귀를 기울이고 가장 시급한 과제를 해결하는 '고객 중심'의 원칙을 따릅니다. * 기술 환경은 딥러닝의 등장에서 시작해 거대언어모델(LLM) 기반의 생성형 AI를 거쳐, 현재는 스스로 작업을 수행하는 에이전트형 AI(Agentic AI)로 빠르게 진화하고 있습니다. ### 클라우드 인프라와 데이터 아키텍처의 고도화 * **컨테이너 및 서버리스:** Amazon ECS와 EKS를 통해 대규모 컨테이너 관리를 단순화했으며, Fargate를 도입해 인프라 관리 부담 없이 서버리스 환경에서 컨테이너를 배포할 수 있게 했습니다. * **고성능 데이터베이스:** Amazon Aurora는 고가용성 관계형 DB의 표준을 세웠으며, 최근에는 0으로 스케일링이 가능한 Serverless v2와 초고속 분산 SQL 데이터베이스인 Aurora DSQL로 진화했습니다. * **하이브리드 클라우드:** AWS Outposts를 통해 저지연 데이터 처리가 필요한 온프레미스 환경에서도 AWS와 동일한 인프라 및 서비스를 사용할 수 있는 일관된 경험을 제공합니다. ### 커스텀 실리콘을 통한 성능 및 비용 최적화 * **AWS Graviton:** Arm 기반의 자체 프로세서를 개발하여 클라우드 워크로드에서 최고의 가격 대비 성능을 실현했으며, 현재 9만 명 이상의 고객이 이를 활용해 비용을 절감하고 있습니다. * **AI 전용 칩셋:** 추론용 Inferentia와 학습용 Trainium 칩을 통해 생성형 AI 애플리케이션 운영에 필요한 최적의 토큰 경제성을 제공하며, Anthropic과 같은 주요 AI 기업들의 워크로드를 지원합니다. ### AI 민주화와 에이전트 기술의 미래 * **Amazon Bedrock:** 다양한 업계 선도 모델을 안전하게 활용할 수 있는 플랫폼을 제공하며, 최근에는 'AgentCore'를 통해 복잡한 워크플로우를 자동화하는 에이전트 구축 기능을 강화했습니다. * **Amazon Nova 및 Titan:** 자체 모델인 Titan 시리즈에 이어 프론티어급 성능의 Nova 모델을 출시했으며, 특히 브라우저 UI 작업을 자동화하는 Nova Act 등 실질적인 업무 자동화 도구를 선보였습니다. * **차세대 AI 코딩:** Amazon Q Developer에서 한 단계 진화한 Kiro(에이전트형 AI 개발 도구)는 독립적인 개발 작업을 수행하는 자율 에이전트 기능을 통해 프로토타입부터 프로덕션까지의 개발 과정을 혁신하고 있습니다. AWS의 지난 20년은 기술이 소수의 전유물이 아닌 모두의 도구가 되는 과정이었습니다. 이제 기업들은 단순한 클라우드 전환을 넘어, SageMaker와 Bedrock 같은 플랫폼을 활용해 비즈니스 핵심에 AI를 내재화하고 에이전트 기술을 도입하여 운영 효율성을 극대화하는 'AI 퍼스트' 전략으로 나아가야 합니다.

aws

Our First 2026 Heroes Cohort Is Here! | Amazon Web Services (새 탭에서 열림)

AWS는 기술적 전문성을 넘어 전 세계 개발자 커뮤니티의 성장을 이끌고 있는 세 명의 전문가를 '2026년 첫 번째 AWS 히어로(AWS Heroes)'로 선정했습니다. 이번에 선정된 히어로는 이탈리아, 싱가포르, 파나마 출신의 리더들로, 클라우드 아키텍처, 생성형 AI, 그리고 보안 분야에서 혁신적인 지식 공유와 인재 양성에 기여한 공로를 인정받았습니다. 이들은 단순한 기술 전파를 넘어 지역사회와 글로벌 생태계를 연결하는 가교 역할을 수행하며 클라우드 문화의 확산을 주도하고 있습니다. **마우리치오(Maurizio): 지역적 한계를 넘는 클라우드 생태계 구축** - 이탈리아 바실리카타 지역의 AWS 사용자 그룹(UG) 리더이자 CTO로서, 기술 불모지에 가까웠던 산악 마을에 국제적인 기술 컨퍼런스를 설립하여 클라우드 문화를 개척했습니다. - 클라우드 아키텍처, DevOps, 웹 스케일링 등 심도 있는 기술 세션과 독창적인 네트워킹 경험을 결합하여 전 유럽의 전문가와 지역 인재를 연결하고 있습니다. - 어린이를 위한 코딩 교육부터 대학생 및 전문가를 위한 클라우드 아키텍처 전환 멘토링까지, 세대를 아우르는 지식 전수 모델을 실천하고 있습니다. **레이 고(Ray Goh): 생성형 AI 교육의 대중화와 대규모 기술 확산** - 2018년부터 AWS 커뮤니티에서 활동해온 AI 전문가로, 2024년 생성형 AI 학습 커뮤니티인 'The Gen-C'를 설립하여 LLM 파인트레이닝(fine-tuning)과 AI 에이전트 기술 보급에 앞장서고 있습니다. - DBS 은행에서 3,100명 이상의 직원을 대상으로 세계 최대 규모의 기업용 AWS DeepRacer 프로그램을 주도했으며, 2025년에는 1,300명 이상의 아세안(ASEAN) 학생들에게 LLM 기술을 교육했습니다. - 기술 공유를 넘어 여성과 청소년을 대상으로 한 AI/ML 사회공헌 활동(CSR)을 전개하며, CNBC와 유로머니(Euromoney) 등 주요 매체에 소개될 만큼 영향력 있는 리더십을 발휘하고 있습니다. **쉐일라 리콕(Sheyla Leacock): 글로벌 보안 생태계 강화와 교육적 헌신** - 파나마 AWS 사용자 그룹을 이끌며 멕시코, 라틴아메리카(LATAM), AWS re:Invent 등 글로벌 무대에서 활동하는 IT 보안 전문가이자 기술 작가입니다. - 클라우드 컴퓨팅과 사이버 보안에 관한 교육 콘텐츠를 정기적으로 발행하고, 전 세계 20개 이상의 국제 컨퍼런스에서 강연하며 보안 생태계의 전문성을 높이고 있습니다. - 여러 대학의 객원 강사로 활동하며 신규 보안 인재 양성을 지원하고, 이론과 실무를 겸비한 교육을 통해 라틴아메리카 지역의 기술 수준을 한 단계 끌어올리고 있습니다. 전 세계 곳곳에서 활동하는 AWS 히어로들의 행보는 클라우드 기술이 지역과 세대의 경계를 어떻게 허물 수 있는지 잘 보여줍니다. 각 분야의 전문성을 쌓고자 하는 개발자라면 AWS 히어로 페이지를 방문하여 거주 지역 근처의 히어로와 연결되거나, 이들이 공유하는 기술 블로그와 컨퍼런스 자료를 통해 최신 클라우드 트렌드와 보안, AI 실무 지식을 학습해 보기를 권장합니다.

aws

Announcing Amazon SageMaker Inference for custom Amazon Nova models | Amazon Web Services (새 탭에서 열림)

Amazon SageMaker Inference에서 사용자 정의 Amazon Nova 모델 지원이 정식 출시되었습니다. 이를 통해 고객은 Nova Micro, Nova Lite, Nova 2 Lite 등 맞춤형으로 학습된 모델을 운영 환경에 최적화된 형태로 배포하고, 인스턴스 유형과 오토스케일링 정책 등을 유연하게 제어할 수 있습니다. 결과적으로 기업은 지연 시간과 비용, 정확도 간의 균형을 맞춘 고성능 추론 환경을 관리형 서비스 기반으로 손쉽게 구축할 수 있게 되었습니다. **맞춤형 Nova 모델 지원과 비용 최적화** * Nova Micro, Nova Lite, Nova 2 Lite 모델의 맞춤형 버전(Full-rank)을 SageMaker Inference 인프라에 원활하게 배포 가능합니다. * 고가의 P5 인스턴스 외에도 Amazon EC2 G5 및 G6 인스턴스를 활용할 수 있어, GPU 활용도를 높이고 추론 비용을 효과적으로 절감합니다. * 5분 단위의 사용 패턴에 기반한 오토스케일링(Auto-scaling) 기능을 통해 프로덕션 워크로드의 변동성에 유연하게 대응합니다. * 계속 사전 학습(Continued pre-training), 지도 미세 조정(SFT), 강화 학습 미세 조정(RLHF)을 거친 다양한 맞춤형 모델 아티팩트를 지원합니다. **유연한 인프라 및 추론 설정 제어** * 모델 체급별로 최적화된 인스턴스 선택권을 제공합니다. * **Nova Micro:** g5/g6(12xl, 24xl, 48xl) 및 p5.48xlarge 지원 * **Nova Lite:** g5.48xlarge, g6.48xlarge, p5.48xlarge 지원 * **Nova 2 Lite:** p5.48xlarge 지원 * 컨텍스트 길이(Context length), 최대 동시성(Max concurrency), 온도(Temperature), Top-P 등 상세 파라미터를 환경 변수로 설정하여 모델 성능을 미세 조정할 수 있습니다. * 특히 `reasoning_effort`(low, high) 옵션을 통해 복잡한 추론 작업에 대한 모델의 사고 과정을 제어할 수 있는 기능을 포함합니다. **통합된 개발 환경 및 배포 워크플로** * SageMaker Studio의 UI를 통해 클릭 몇 번으로 모델 아티팩트 선택부터 엔드포인트 생성까지 전 과정을 시각적으로 관리할 수 있습니다. * SageMaker AI SDK를 사용하여 모델 생성, 엔드포인트 구성, 배포 자동화 코드를 작성할 수 있으며, 컨테이너 이미지 URI와 S3 모델 경로를 직접 지정하는 구조를 가집니다. * 실시간 추론 시 스트리밍(Streaming) 및 비스트리밍 모드를 모두 지원하여 사용자 경험을 개선하며, 대량의 데이터 처리를 위한 비동기 엔드포인트 구성도 가능합니다. * 배포 완료 후에는 SageMaker Playground 탭에서 채팅 모드로 즉시 모델 성능을 테스트하고 프로토타이핑할 수 있습니다. 도메인 특화 데이터로 Nova 모델을 미세 조정하여 실제 서비스에 적용하려는 팀은 SageMaker Inference를 통해 관리 부담을 줄이면서도 최적의 가성비를 확보할 수 있습니다. 특히 비용 효율성이 중요한 경우 G6 인스턴스를 우선적으로 검토하고, 대규모 트래픽 처리가 필요한 경우 5분 단위 오토스케일링 정책을 결합하여 운영 효율을 극대화할 것을 추천합니다.

aws

AWS Weekly Roundup: AWS re:Invent keynote recap, on-demand videos, and more (December 8, 2025) (새 탭에서 열림)

AWS re:Invent 2025는 단순한 기술 발표를 넘어 AI 어시스턴트가 자율적인 'AI 에이전트'로 진화하는 중대한 변곡점을 시사했습니다. AWS는 개발자들에게 발명의 자유를 제공한다는 핵심 미션을 재확인하며, 자연어로 복잡한 작업을 수행하고 코드를 실행하는 에이전트 중심의 미래 비전을 제시했습니다. 이번 행사는 AI 투자가 실질적인 비즈니스 가치로 전환되는 시점에서 보안, 가용성, 성능이라는 클라우드의 본질적 가치를 다시 한번 강조했습니다. **AI 에이전트 중심의 비즈니스 혁신** * **어시스턴트에서 에이전트로의 진화:** 단순한 답변 제공을 넘어 스스로 계획을 세우고, 코드를 작성하며, 필요한 도구를 호출해 작업을 완수하는 자율형 에이전트가 핵심 기술로 부상했습니다. * **실질적 비즈니스 수익 창출:** AI가 단순한 실험 단계를 지나 기업의 업무를 자동화하고 효율성을 높임으로써 구체적인 재무적 성과를 내기 시작하는 단계에 진입했습니다. * **비결정적 특성에 최적화된 인프라:** 결과가 매번 다를 수 있는 AI 에이전트의 특성(Non-deterministic)을 고려하여, 안전하고 신뢰할 수 있으며 확장이 용이한 전용 인프라를 구축하고 있습니다. **아키텍트의 르네상스와 개발자 생태계** * **설계 역량의 재발견:** 기술적 세부 사항에 매몰되기보다 시스템 전체를 조망하고 설계하는 고수준 아키텍처 역량이 중요해진 '아키텍트의 르네상스' 시대가 도래했습니다. * **커뮤니티 기여의 가치:** 필리핀의 AWS 히어로 라피(Rafi)가 'Now Go Build' 상을 수상한 사례를 통해, 기술 혁신만큼이나 커뮤니티 빌딩과 개발자 역량 강화가 중요함을 강조했습니다. * **발명의 자유(Freedom to Invent):** 지난 20년간 AWS의 중심이었던 개발자들이 창의성을 발휘할 수 있도록 도구와 환경을 제공하는 것이 AWS의 변함없는 목표임을 천명했습니다. **클라우드 기반 기술의 지속적 고도화** * **커스텀 실리콘과 인프라:** 보안, 가용성, 성능이라는 클라우드의 기본 속성을 유지하면서도 AI 워크로드에 최적화된 하드웨어 혁신을 지속하고 있습니다. * **자연어 기반 솔루션 구현:** 사용자가 달성하고자 하는 목적을 자연어로 설명하면 시스템이 실행 가능한 솔루션으로 변환하는 인터페이스의 혁신이 가속화되고 있습니다. AI 에이전트가 주도하는 기술 환경 변화에 대응하기 위해, 기업들은 단순한 챗봇 도입을 넘어 비즈니스 프로세스 자체를 자동화할 수 있는 에이전트 활용 전략을 수립해야 합니다. AWS re:Invent 2025의 주요 세션 영상과 발표 자료가 온디맨드로 제공되고 있으므로, 조직의 요구 사항에 맞는 AI 아키텍처를 재설계하고 새로운 기술 도구들을 선제적으로 검토해 보시길 권장합니다.

aws

Amazon Bedrock adds reinforcement fine-tuning simplifying how developers build smarter, more accurate AI models (새 탭에서 열림)

Amazon Bedrock에 새롭게 도입된 '강화 미세 조정(Reinforcement Fine-tuning)'은 대규모 라벨링 데이터셋 없이도 피드백 루프를 통해 AI 모델의 정확도와 효율성을 극대화하는 혁신적인 맞춤화 기능입니다. 이 서비스는 복잡한 기계 학습 워크플로를 자동화하여 전문 지식이 부족한 개발자도 기본 모델 대비 평균 66% 향상된 성능의 모델을 구축할 수 있게 지원합니다. 결과적으로 기업은 높은 비용이 드는 대형 모델 대신, 특정 업무에 최적화된 작고 빠른 모델을 경제적으로 운용할 수 있습니다. **강화 미세 조정의 작동 원리와 차별점** * 기존의 미세 조정 방식이 사람이 일일이 라벨을 붙인 방대한 데이터셋을 필요로 했던 것과 달리, 보상 함수(Reward functions)를 사용하여 모델의 응답 품질을 평가하고 학습시킵니다. * 고정된 예시를 암기하는 것이 아니라, 어떤 응답이 비즈니스 요구사항에 더 적합한지 판단하는 '보상 신호'를 통해 모델이 반복적으로 개선됩니다. * 이러한 피드백 기반 접근 방식은 데이터 준비 비용을 획기적으로 줄이면서도 모델이 사용자의 의도를 더 정확하게 파악하도록 돕습니다. **비즈니스 효율성을 위한 주요 장점** * **사용 편의성:** Amazon Bedrock 내의 기존 API 로그나 업로드된 데이터셋을 그대로 활용할 수 있어, 복잡한 인프라 설정 없이도 즉시 학습을 시작할 수 있습니다. * **성능 및 비용 최적화:** Amazon Nova 2 Lite와 같은 가볍고 빠른 모델을 강화 미세 조정함으로써, 더 크고 비싼 모델보다 뛰어난 특정 작업 수행 능력을 갖추게 할 수 있습니다. * **보안 및 신뢰성:** 모델 맞춤화의 모든 과정이 보안이 유지되는 AWS 환경 내에서 이루어지므로, 기업의 민감한 데이터 유출 우려 없이 안전하게 학습이 가능합니다. **세부 최적화 기법: RLVR 및 RLAIF** * **RLVR (Verifiable Rewards):** 수학적 추론이나 코드 생성처럼 정답이 명확한 객관적 작업에 대해 규칙 기반의 채점기를 사용하여 모델을 개선합니다. * **RLAIF (AI Feedback):** AI가 생성한 피드백을 활용하여 모델의 응답 품질을 높이는 방식으로, 보다 복잡하고 주관적인 맥락이 포함된 작업에 유용합니다. 방대한 데이터를 준비하기 어렵거나 모델 운영 비용을 절감하면서도 높은 정확도를 원하는 기업에게 Amazon Bedrock의 강화 미세 조정은 매우 실용적인 대안이 됩니다. 특히 Amazon Nova 2 Lite 모델을 시작으로 점차 지원 모델이 확대될 예정이므로, 특정 도메인에 특화된 가성비 높은 AI 서비스를 구축하고자 하는 개발팀에게 이 기능을 적극 활용해 볼 것을 추천합니다.

aws

New serverless customization in Amazon SageMaker AI accelerates model fine-tuning (새 탭에서 열림)

Amazon SageMaker AI는 Amazon Nova, DeepSeek, Llama 등 주요 AI 모델에 대해 인프라 관리 없이 미세 조정(Fine-tuning)을 수행할 수 있는 새로운 서버리스 커스터마이징 기능을 발표했습니다. 이 기능은 복잡한 리소스 프로비저닝을 자동화하여 모델 최적화 기간을 수개월에서 수일 수준으로 단축하며, 사용자가 인프라 대신 모델 튜닝 자체에 집중할 수 있는 환경을 제공합니다. 개발자는 SageMaker Studio의 직관적인 인터페이스를 통해 최신 강화 학습 기법을 몇 번의 클릭만으로 적용하고 모델을 즉시 배포할 수 있습니다. ### 서버리스 기반의 인프라 자동화 및 효율성 * **자동 리소스 프로비저닝**: 모델의 크기와 학습 데이터의 양에 맞춰 SageMaker AI가 최적의 컴퓨팅 리소스를 자동으로 선택하고 할당합니다. * **관리 부담 제거**: 서버리스 환경에서 구동되므로 사용자가 직접 인스턴스를 관리하거나 확장성을 고민할 필요가 없습니다. * **실험 추적 통합**: 새롭게 도입된 서버리스 MLflow 애플리케이션을 통해 하이퍼파라미터 및 실험 과정을 체계적으로 기록하고 관리할 수 있습니다. ### 고도화된 모델 커스터마이징 기법 지원 * **다양한 학습 기법**: 지도 학습 기반 미세 조정(SFT)뿐만 아니라 직접 선호도 최적화(DPO), 검증 가능한 보상을 통한 강화 학습(RLVR), AI 피드백 기반 강화 학습(RLAIF) 등 최신 기법을 지원합니다. * **사용자 친화적 UI**: SageMaker Studio 내 'Customize with UI' 기능을 통해 코딩 부담을 줄이면서도 배치 크기, 학습률, 에포크(Epoch) 등 상세 설정을 조정할 수 있습니다. * **연속적인 최적화**: 학습 완료 후 'Continue customization' 기능을 사용하여 하이퍼파라미터를 조정하거나 다른 기법으로 추가 학습을 진행하는 반복 작업이 용이합니다. ### 평가 및 유연한 배포 옵션 * **성능 비교 평가**: 커스터마이징된 모델이 기본 모델 대비 얼마나 개선되었는지 확인할 수 있는 평가(Evaluate) 기능을 제공합니다. * **멀티 플랫폼 배포**: 학습과 평가가 완료된 모델은 Amazon SageMaker 또는 Amazon Bedrock 중 원하는 환경을 선택하여 원클릭으로 배포할 수 있습니다. * **보안 및 암호화**: 네트워크 보안 설정 및 저장 볼륨 암호화 등 기업용 애플리케이션에 필요한 고급 보안 설정을 동일하게 지원합니다. 이 서비스는 인프라 구축의 복잡성 때문에 최신 LLM 성능 최적화를 망설였던 기업에게 매우 실용적인 대안입니다. 특히 RLVR이나 RLAIF 같은 고난도 강화 학습 기법을 복잡한 설정 없이 테스트해보고 싶은 팀에게 SageMaker AI의 서버리스 워크플로우를 우선적으로 활용해 볼 것을 추천합니다.

aws

Introducing checkpointless and elastic training on Amazon SageMaker HyperPod (새 탭에서 열림)

Amazon SageMaker HyperPod은 대규모 AI 모델 학습의 효율성을 극대화하기 위해 '체크포인트리스(Checkpointless) 학습'과 '엘라스틱(Elastic) 학습' 기능을 새롭게 출시했습니다. 이 기술들은 하드웨어 장애 발생 시 복구 시간을 획기적으로 단축하고 클러스터 자원 활용도를 자동 최적화하여 전체 개발 주기를 대폭 앞당깁니다. 이를 통해 엔지니어는 인프라 관리 부담에서 벗어나 모델 성능 고도화와 시장 출시 속도 향상에 더욱 집중할 수 있습니다. ### 체크포인트리스 학습을 통한 중단 없는 상태 복구 기존의 체크포인트 기반 복구는 작업 종료, 재시작, 네트워크 설정, 체크포인트 검색 및 로드 등 복잡한 단계를 거치느라 최대 1시간 이상의 다운타임이 발생하곤 했습니다. 체크포인트리스 학습은 이러한 병목 현상을 해결하기 위해 다음과 같은 기술적 요소를 도입했습니다. * **피어 투 피어(P2P) 상태 복제**: 모델의 상태를 클러스터 내의 건강한 노드(Peer)에 실시간으로 복제하여 저장하며, 장애 발생 시 체크포인트를 불러오는 대신 이웃 노드로부터 즉시 상태를 복구합니다. * **복구 시간 단축**: 전통적인 방식 대비 복구 시간을 분 단위로 줄였으며, 내부 테스트 결과 2,000개 이상의 GPU 환경에서도 다운타임을 80% 이상 감소시키는 성과를 보였습니다. * **4가지 핵심 구성 요소**: 집합 통신 초기화 최적화, 캐싱이 가능한 메모리 매핑 데이터 로딩, 프로세스 내 복구(In-process recovery), 그리고 P2P 상태 복제 기술이 유기적으로 결합되어 작동합니다. * **검증된 확장성**: 수만 개의 가속기를 활용한 Amazon Nova 모델 학습에 이미 성공적으로 적용되어 대규모 환경에서의 안정성을 입증했습니다. ### 자원 활용을 극대화하는 엘라스틱 학습 엘라스틱 학습은 클러스터의 가용 자원 상태에 따라 학습 워크로드의 규모를 유연하게 조절하는 기능입니다. 인프라의 가변적인 상황에 맞춰 학습 효율을 최대로 끌어올립니다. * **자동 확장 및 축소**: 클러스터 내에 유휴 자원이 발생하면 학습 규모를 자동으로 확장하고, 추론 서비스와 같은 고우선순위 작업이 몰릴 때는 자원을 즉시 반납하며 축소합니다. * **운영 효율성**: 매주 수동으로 인프라 설정을 변경하던 엔지니어링 시간을 절약할 수 있으며, 클러스터 활용도를 높여 전체 학습 완료 시간을 단축합니다. * **우선순위 기반 할당**: 비즈니스 요구사항에 따라 자원을 재배치함으로써 고비용의 컴퓨팅 자원을 낭비 없이 사용할 수 있도록 지원합니다. ### 실용적인 권장 사항 수천 개의 GPU를 사용하는 초거대 모델 학습 환경에서는 하드웨어 장애가 빈번하게 발생할 수밖에 없습니다. 인프라 장애로 인한 학습 중단 리스크를 최소화하고 싶은 팀은 SageMaker HyperPod의 체크포인트리스 학습을 도입하여 복구 골든타임을 확보할 것을 권장합니다. 특히 가변적인 인프라 환경에서 비용 효율성을 중시한다면 엘라스틱 학습 기능을 활성화하여 클러스터 유휴 자원을 100% 활용하는 전략이 유효할 것입니다.