elastic-fabric-adapter

2 개의 포스트

5세대 AMD EPYC 프로세 (새 탭에서 열림)

최신 5세대 AMD EPYC 프로세서를 탑재한 Amazon EC2 Hpc8a 인스턴스가 정식 출시되었습니다. 이 인스턴스는 이전 세대인 Hpc7a 대비 최대 40% 향상된 성능과 42% 높은 메모리 대역폭을 제공하여 계산 집약적인 고성능 컴퓨팅(HPC) 워크로드에 최적화되었습니다. 특히 기상 모델링, 유체 역학 시나리오, 복잡한 충돌 시뮬레이션 등 고도의 연산 능력이 필요한 결합형(Tightly Coupled) HPC 작업에서 탁월한 가성비를 보여줍니다. **Hpc8a 인스턴스의 주요 하드웨어 사양 및 성능** - 최대 4.5GHz의 클럭 속도를 제공하는 5세대 AMD EPYC 프로세서를 기반으로 구동됩니다. - 이전 세대(Hpc7a)와 비교했을 때 성능은 40%, 메모리 대역폭은 42% 향상되었으며, 가격 대비 성능(Price-performance)은 약 25% 개선되었습니다. - 단일 인스턴스 크기인 '96xlarge'로 제공되며, 192개의 코어와 768GiB의 메모리(코어 대 메모리 비율 1:4)를 탑재하고 있습니다. - 대규모 노드 간 통신을 위해 300Gbps 대역폭의 EFA(Elastic Fabric Adapter) 네트워킹을 지원하여 지연 시간을 최소화합니다. **HPC 최적화를 위한 아키텍처 및 유연성** - 가상화, 스토리지, 네트워킹 기능을 전용 하드웨어로 오프로드하는 6세대 AWS Nitro 카드를 사용하여 시스템 성능과 보안성을 극대화했습니다. - HPC 워크로드의 일관된 성능을 보장하기 위해 동시 멀티스레딩(SMT) 기능이 기본적으로 비활성화되어 있습니다. - 인스턴스 시작 시 사용자가 필요한 코어 수를 직접 맞춤 설정할 수 있어, 특정 워크로드 요구 사항에 맞춰 리소스를 효율적으로 조정할 수 있습니다. **통합 에코시스템 및 서비스 활용** - AWS ParallelCluster 및 AWS Parallel Computing Service(AWS PCS)와 연동하여 클러스터 생성 및 워크로드 제출 과정을 간소화할 수 있습니다. - Amazon FSx for Lustre 스토리지와 결합 시 밀리초 미만의 지연 시간과 초당 수백 기가바이트의 처리량을 확보하여 데이터 병목 현상을 해결합니다. - 현재 미국 동부(오하이오) 및 유럽(스톡홀름) 리전에서 사용 가능하며, 온디맨드 또는 세이빙 플랜(Savings Plan)을 통해 구매할 수 있습니다. 복잡한 시뮬레이션의 실행 시간을 단축하고 운영 비용을 절감하고자 하는 HPC 사용자들에게 Hpc8a 인스턴스는 강력한 선택지가 될 것입니다. 특히 대규모 노드 확장이 필요한 유체 역학이나 고해상도 기상 예측 모델을 운영 중이라면 300Gbps EFA와 개선된 메모리 대역폭을 적극 활용해 보시기 바랍니다.

NVIDIA RTX PRO 60 (새 탭에서 열림)

Amazon은 NVIDIA RTX PRO 6000 Blackwell 서버 에디션 GPU를 탑재한 새로운 EC2 G7e 인스턴스의 정식 출시를 발표했습니다. 이 인스턴스는 생성형 AI 추론 워크로드에서 뛰어난 비용 효율성을 제공하며, 이전 세대인 G6e 대비 최대 2.3배 향상된 추론 성능을 자랑합니다. 공간 컴퓨팅 및 과학적 컴퓨팅과 같이 높은 그래픽 성능이 요구되는 작업에 최적화된 하이엔드 솔루션입니다. ### NVIDIA Blackwell GPU 기반의 성능 혁신 * **메모리 용량 및 대역폭:** NVIDIA RTX PRO 6000 Blackwell GPU를 통해 G6e 대비 2배의 GPU 메모리(개당 96GB)와 1.85배의 메모리 대역폭을 제공합니다. * **대규모 모델 처리:** 향상된 메모리 사양 덕분에 단일 GPU 환경에서도 FP8 정밀도로 최대 700억 개(70B) 파라미터 규모의 중간급 모델을 실행할 수 있습니다. * **컴퓨팅 파워:** 최신 Intel Emerald Rapids 프로세서를 탑재하여 강력한 CPU 성능과 GPU 성능의 조화를 이룹니다. ### 멀티 GPU 효율성 및 상호 연결 기술 * **NVIDIA GPUDirect P2P 지원:** 단일 GPU 메모리를 초과하는 대규모 모델을 위해 PCIe 인터커넥트를 통한 GPU 간 직접 통신을 지원하여 지연 시간을 최소화합니다. * **대역폭 향상:** G6e에 탑재된 L40s GPU 대비 GPU 간 대역폭이 최대 4배 증가하여, 멀티 GPU 워크로드의 처리 효율이 비약적으로 상승했습니다. * **확장성:** 단일 노드에서 최대 8개의 GPU를 사용하여 총 768GB의 GPU 메모리를 확보할 수 있어, 거대 언어 모델(LLM) 추론에 유리합니다. ### 네트워킹 및 스토리지 가속화 * **고속 네트워크:** G6e 대비 4배 더 넓은 최대 1,600Gbps의 네트워크 대역폭을 제공하여 소규모 멀티 노드 워크로드에 적합합니다. * **지연 시간 감소:** Elastic Fabric Adapter(EFA)를 통한 GPUDirect RDMA를 지원하여 원격 GPU 간 통신 시 병목 현상을 줄였습니다. * **데이터 로딩 최적화:** Amazon FSx for Lustre와 GPUDirectStorage를 결합하여 최대 1.2Tbps의 처리량을 지원하므로, 대용량 모델 데이터를 매우 빠르게 로드할 수 있습니다. ### 상세 인스턴스 사양 * **인스턴스 구성:** 최소 `g7e.2xlarge`(1 GPU, 8 vCPU)부터 최대 `g7e.48xlarge`(8 GPU, 192 vCPU)까지 총 6가지 크기를 제공합니다. * **시스템 자원:** 최대 2,048GiB의 시스템 메모리와 15.2TB의 로컬 NVMe SSD 스토리지를 선택할 수 있어 데이터 집약적인 작업에 대응합니다. 생성형 AI 모델의 크기가 커짐에 따라 고용량 GPU 메모리와 빠른 상호 연결 성능이 필수적인 환경에서 G7e 인스턴스는 최적의 선택지입니다. 특히 기존 G6e 인스턴스 사용자가 성능 한계를 느끼거나, 70B급 모델을 보다 효율적으로 서빙하고자 하는 개발 팀에게 이 인스턴스로의 전환을 적극 추천합니다. 현재 미국 동부(버지니아 북부) 및 미국 서부(오레곤) 리전에서 바로 사용할 수 있습니다.