사용자 정의 Amazon Nova 모델 (새 탭에서 열림)
Amazon SageMaker Inference에서 사용자 정의 Amazon Nova 모델 지원이 정식 출시되었습니다. 이를 통해 고객은 Nova Micro, Nova Lite, Nova 2 Lite 등 맞춤형으로 학습된 모델을 운영 환경에 최적화된 형태로 배포하고, 인스턴스 유형과 오토스케일링 정책 등을 유연하게 제어할 수 있습니다. 결과적으로 기업은 지연 시간과 비용, 정확도 간의 균형을 맞춘 고성능 추론 환경을 관리형 서비스 기반으로 손쉽게 구축할 수 있게 되었습니다. **맞춤형 Nova 모델 지원과 비용 최적화** * Nova Micro, Nova Lite, Nova 2 Lite 모델의 맞춤형 버전(Full-rank)을 SageMaker Inference 인프라에 원활하게 배포 가능합니다. * 고가의 P5 인스턴스 외에도 Amazon EC2 G5 및 G6 인스턴스를 활용할 수 있어, GPU 활용도를 높이고 추론 비용을 효과적으로 절감합니다. * 5분 단위의 사용 패턴에 기반한 오토스케일링(Auto-scaling) 기능을 통해 프로덕션 워크로드의 변동성에 유연하게 대응합니다. * 계속 사전 학습(Continued pre-training), 지도 미세 조정(SFT), 강화 학습 미세 조정(RLHF)을 거친 다양한 맞춤형 모델 아티팩트를 지원합니다. **유연한 인프라 및 추론 설정 제어** * 모델 체급별로 최적화된 인스턴스 선택권을 제공합니다. * **Nova Micro:** g5/g6(12xl, 24xl, 48xl) 및 p5.48xlarge 지원 * **Nova Lite:** g5.48xlarge, g6.48xlarge, p5.48xlarge 지원 * **Nova 2 Lite:** p5.48xlarge 지원 * 컨텍스트 길이(Context length), 최대 동시성(Max concurrency), 온도(Temperature), Top-P 등 상세 파라미터를 환경 변수로 설정하여 모델 성능을 미세 조정할 수 있습니다. * 특히 `reasoning_effort`(low, high) 옵션을 통해 복잡한 추론 작업에 대한 모델의 사고 과정을 제어할 수 있는 기능을 포함합니다. **통합된 개발 환경 및 배포 워크플로** * SageMaker Studio의 UI를 통해 클릭 몇 번으로 모델 아티팩트 선택부터 엔드포인트 생성까지 전 과정을 시각적으로 관리할 수 있습니다. * SageMaker AI SDK를 사용하여 모델 생성, 엔드포인트 구성, 배포 자동화 코드를 작성할 수 있으며, 컨테이너 이미지 URI와 S3 모델 경로를 직접 지정하는 구조를 가집니다. * 실시간 추론 시 스트리밍(Streaming) 및 비스트리밍 모드를 모두 지원하여 사용자 경험을 개선하며, 대량의 데이터 처리를 위한 비동기 엔드포인트 구성도 가능합니다. * 배포 완료 후에는 SageMaker Playground 탭에서 채팅 모드로 즉시 모델 성능을 테스트하고 프로토타이핑할 수 있습니다. 도메인 특화 데이터로 Nova 모델을 미세 조정하여 실제 서비스에 적용하려는 팀은 SageMaker Inference를 통해 관리 부담을 줄이면서도 최적의 가성비를 확보할 수 있습니다. 특히 비용 효율성이 중요한 경우 G6 인스턴스를 우선적으로 검토하고, 대규모 트래픽 처리가 필요한 경우 5분 단위 오토스케일링 정책을 결합하여 운영 효율을 극대화할 것을 추천합니다.