ai-inference

2 개의 포스트

NVIDIA RTX PRO 6 (새 탭에서 열림)

Amazon은 NVIDIA RTX PRO 6000 Blackwell 서버 에디션 GPU를 탑재한 새로운 EC2 G7e 인스턴스의 정식 출시를 발표했습니다. 이 인스턴스는 생성형 AI 추론 워크로드에서 뛰어난 비용 효율성을 제공하며, 이전 세대인 G6e 대비 최대 2.3배 향상된 추론 성능을 자랑합니다. 공간 컴퓨팅 및 과학적 컴퓨팅과 같이 높은 그래픽 성능이 요구되는 작업에 최적화된 하이엔드 솔루션입니다. ### NVIDIA Blackwell GPU 기반의 성능 혁신 * **메모리 용량 및 대역폭:** NVIDIA RTX PRO 6000 Blackwell GPU를 통해 G6e 대비 2배의 GPU 메모리(개당 96GB)와 1.85배의 메모리 대역폭을 제공합니다. * **대규모 모델 처리:** 향상된 메모리 사양 덕분에 단일 GPU 환경에서도 FP8 정밀도로 최대 700억 개(70B) 파라미터 규모의 중간급 모델을 실행할 수 있습니다. * **컴퓨팅 파워:** 최신 Intel Emerald Rapids 프로세서를 탑재하여 강력한 CPU 성능과 GPU 성능의 조화를 이룹니다. ### 멀티 GPU 효율성 및 상호 연결 기술 * **NVIDIA GPUDirect P2P 지원:** 단일 GPU 메모리를 초과하는 대규모 모델을 위해 PCIe 인터커넥트를 통한 GPU 간 직접 통신을 지원하여 지연 시간을 최소화합니다. * **대역폭 향상:** G6e에 탑재된 L40s GPU 대비 GPU 간 대역폭이 최대 4배 증가하여, 멀티 GPU 워크로드의 처리 효율이 비약적으로 상승했습니다. * **확장성:** 단일 노드에서 최대 8개의 GPU를 사용하여 총 768GB의 GPU 메모리를 확보할 수 있어, 거대 언어 모델(LLM) 추론에 유리합니다. ### 네트워킹 및 스토리지 가속화 * **고속 네트워크:** G6e 대비 4배 더 넓은 최대 1,600Gbps의 네트워크 대역폭을 제공하여 소규모 멀티 노드 워크로드에 적합합니다. * **지연 시간 감소:** Elastic Fabric Adapter(EFA)를 통한 GPUDirect RDMA를 지원하여 원격 GPU 간 통신 시 병목 현상을 줄였습니다. * **데이터 로딩 최적화:** Amazon FSx for Lustre와 GPUDirectStorage를 결합하여 최대 1.2Tbps의 처리량을 지원하므로, 대용량 모델 데이터를 매우 빠르게 로드할 수 있습니다. ### 상세 인스턴스 사양 * **인스턴스 구성:** 최소 `g7e.2xlarge`(1 GPU, 8 vCPU)부터 최대 `g7e.48xlarge`(8 GPU, 192 vCPU)까지 총 6가지 크기를 제공합니다. * **시스템 자원:** 최대 2,048GiB의 시스템 메모리와 15.2TB의 로컬 NVMe SSD 스토리지를 선택할 수 있어 데이터 집약적인 작업에 대응합니다. 생성형 AI 모델의 크기가 커짐에 따라 고용량 GPU 메모리와 빠른 상호 연결 성능이 필수적인 환경에서 G7e 인스턴스는 최적의 선택지입니다. 특히 기존 G6e 인스턴스 사용자가 성능 한계를 느끼거나, 70B급 모델을 보다 효율적으로 서빙하고자 하는 개발 팀에게 이 인스턴스로의 전환을 적극 추천합니다. 현재 미국 동부(버지니아 북부) 및 미국 서부(오레곤) 리전에서 바로 사용할 수 있습니다.

커스텀 인텔 (새 탭에서 열림)

AWS가 Intel Xeon 6 프로세서를 탑재한 차세대 메모리 최적화 인스턴스인 Amazon EC2 X8i의 정식 출시를 발표했습니다. 이 인스턴스는 이전 세대인 X2i 대비 최대 1.5배의 메모리 용량과 3.4배의 대역폭을 제공하여 대규모 데이터베이스 및 분석 작업에 최적화되었습니다. 특히 SAP 인증을 획득하여 SAP HANA와 같은 고성능 인메모리 워크로드에서 압도적인 효율성을 보여줍니다. **커스텀 Intel Xeon 6 기반의 독보적인 성능** * AWS 전용으로 설계된 커스텀 Intel Xeon 6 프로세서를 탑재하여 전 코어 3.9GHz의 지속적인 터보 주파수를 제공합니다. * 이전 세대(X2i)와 비교했을 때 전체적으로 최대 43%의 성능 향상을 실현했습니다. * 최대 6TB의 메모리 용량을 지원하며, 메모리 대역폭은 3.4배 더 넓어져 데이터 집약적인 처리에 유리합니다. **주요 워크로드별 벤치마크 및 비용 효율성** * SAP HANA 워크로드에서 이전 세대 대비 최대 50% 향상된 SAPS(SAP Application Performance Standard) 성능을 기록했습니다. * PostgreSQL 성능은 최대 47%, Memcached는 최대 88%, AI 추론 성능은 최대 46%까지 개선되었습니다. * 실제 고객 사례인 Orion의 경우, X8i의 높은 성능 덕분에 활성 코어 수를 줄이면서도 동일 성능을 유지하여 SQL Server 라이선스 비용을 50% 절감했습니다. **유연한 인스턴스 규격과 대역폭 옵션** * 가상화 인스턴스(48xlarge, 64xlarge, 96xlarge 등)부터 베어메탈(metal-48xl, metal-96xl)까지 총 14가지 크기를 제공합니다. * 최대 100Gbps의 네트워크 대역폭(EFA 지원)과 80Gbps의 Amazon EBS 대역폭을 통해 대규모 데이터 전송 병목 현상을 최소화합니다. * IBC(Instance Bandwidth Configuration) 기능을 지원하여 사용자가 필요에 따라 네트워크와 EBS 대역폭 할당량을 조정할 수 있습니다. **가용성 및 구매 방식** * 현재 미국 동부(버지니아 북부), 미국 서부(오레곤), 유럽(프랑크푸르트, 아일랜드), 아시아 태평양(시드니, 도쿄) 리전에서 즉시 사용 가능합니다. * 온디맨드, 예약 인스턴스(RI), Savings Plans 및 스팟 인스턴스 등 다양한 구매 옵션을 통해 비용을 최적화할 수 있습니다. SAP HANA와 같은 대규모 인메모리 데이터베이스를 운영하거나, 높은 컴퓨팅 파워와 방대한 메모리가 동시에 필요한 EDA(전자 설계 자동화) 및 데이터 분석 환경이라면 X8i 인스턴스로의 전환을 통해 성능 향상과 라이선스 비용 절감 효과를 동시에 거둘 수 있을 것입니다.