gpu-acceleration

3 개의 포스트

NVIDIA RTX PRO 6 (새 탭에서 열림)

Amazon은 NVIDIA RTX PRO 6000 Blackwell 서버 에디션 GPU를 탑재한 새로운 EC2 G7e 인스턴스의 정식 출시를 발표했습니다. 이 인스턴스는 생성형 AI 추론 워크로드에서 뛰어난 비용 효율성을 제공하며, 이전 세대인 G6e 대비 최대 2.3배 향상된 추론 성능을 자랑합니다. 공간 컴퓨팅 및 과학적 컴퓨팅과 같이 높은 그래픽 성능이 요구되는 작업에 최적화된 하이엔드 솔루션입니다. ### NVIDIA Blackwell GPU 기반의 성능 혁신 * **메모리 용량 및 대역폭:** NVIDIA RTX PRO 6000 Blackwell GPU를 통해 G6e 대비 2배의 GPU 메모리(개당 96GB)와 1.85배의 메모리 대역폭을 제공합니다. * **대규모 모델 처리:** 향상된 메모리 사양 덕분에 단일 GPU 환경에서도 FP8 정밀도로 최대 700억 개(70B) 파라미터 규모의 중간급 모델을 실행할 수 있습니다. * **컴퓨팅 파워:** 최신 Intel Emerald Rapids 프로세서를 탑재하여 강력한 CPU 성능과 GPU 성능의 조화를 이룹니다. ### 멀티 GPU 효율성 및 상호 연결 기술 * **NVIDIA GPUDirect P2P 지원:** 단일 GPU 메모리를 초과하는 대규모 모델을 위해 PCIe 인터커넥트를 통한 GPU 간 직접 통신을 지원하여 지연 시간을 최소화합니다. * **대역폭 향상:** G6e에 탑재된 L40s GPU 대비 GPU 간 대역폭이 최대 4배 증가하여, 멀티 GPU 워크로드의 처리 효율이 비약적으로 상승했습니다. * **확장성:** 단일 노드에서 최대 8개의 GPU를 사용하여 총 768GB의 GPU 메모리를 확보할 수 있어, 거대 언어 모델(LLM) 추론에 유리합니다. ### 네트워킹 및 스토리지 가속화 * **고속 네트워크:** G6e 대비 4배 더 넓은 최대 1,600Gbps의 네트워크 대역폭을 제공하여 소규모 멀티 노드 워크로드에 적합합니다. * **지연 시간 감소:** Elastic Fabric Adapter(EFA)를 통한 GPUDirect RDMA를 지원하여 원격 GPU 간 통신 시 병목 현상을 줄였습니다. * **데이터 로딩 최적화:** Amazon FSx for Lustre와 GPUDirectStorage를 결합하여 최대 1.2Tbps의 처리량을 지원하므로, 대용량 모델 데이터를 매우 빠르게 로드할 수 있습니다. ### 상세 인스턴스 사양 * **인스턴스 구성:** 최소 `g7e.2xlarge`(1 GPU, 8 vCPU)부터 최대 `g7e.48xlarge`(8 GPU, 192 vCPU)까지 총 6가지 크기를 제공합니다. * **시스템 자원:** 최대 2,048GiB의 시스템 메모리와 15.2TB의 로컬 NVMe SSD 스토리지를 선택할 수 있어 데이터 집약적인 작업에 대응합니다. 생성형 AI 모델의 크기가 커짐에 따라 고용량 GPU 메모리와 빠른 상호 연결 성능이 필수적인 환경에서 G7e 인스턴스는 최적의 선택지입니다. 특히 기존 G6e 인스턴스 사용자가 성능 한계를 느끼거나, 70B급 모델을 보다 효율적으로 서빙하고자 하는 개발 팀에게 이 인스턴스로의 전환을 적극 추천합니다. 현재 미국 동부(버지니아 북부) 및 미국 서부(오레곤) 리전에서 바로 사용할 수 있습니다.

Amazon OpenSearch Service, GPU 가 (새 탭에서 열림)

Amazon OpenSearch Service가 벡터 데이터베이스의 성능을 극대화하고 비용을 절감하기 위해 서버리스 GPU 가속 및 자동 최적화 기능을 도입했습니다. 이 기능을 통해 사용자는 수십억 건 규모의 벡터 인덱스를 기존보다 최대 10배 빠른 속도와 4분의 1 수준의 비용으로 구축할 수 있으며, 복잡한 수동 튜닝 없이도 최적의 검색 품질을 유지할 수 있습니다. 결과적으로 생성형 AI 애플리케이션 개발에 필요한 대규모 벡터 검색 환경을 훨씬 더 경제적이고 효율적으로 운영할 수 있게 되었습니다. **GPU 가속을 통한 대규모 벡터 데이터베이스 구축** * **성능 및 비용 혁신:** 비가속 환경 대비 인덱싱 속도는 10배 빨라진 반면, 관련 비용은 75%까지 절감되었습니다. 이를 통해 10억 개 규모의 벡터 데이터베이스를 1시간 이내에 생성할 수 있는 놀라운 확장성을 제공합니다. * **서버리스 관리 모델:** 사용자가 직접 GPU 인스턴스를 할당하거나 관리할 필요가 없으며, 실제 처리량에 따른 OCU(OpenSearch Compute Units) 단위로만 비용을 지불하면 됩니다. * **보안 및 통합:** 가속화된 작업은 사용자의 VPC(Amazon Virtual Private Cloud) 내에서 안전하게 격리되어 실행되며, 기존 OpenSearch 서비스의 워크플로우 내에서 자연스럽게 통합됩니다. **자동 최적화(Auto-optimization) 기반 성능 튜닝** * **자동화된 균형 탐색:** 벡터 데이터의 특성에 맞춰 검색 지연 시간, 검색 품질(재현율), 메모리 요구 사항 사이의 최적의 균형점을 시스템이 자동으로 찾아냅니다. * **전문성 장벽 완화:** 과거에는 벡터 인덱스 최적화에 몇 주간의 수동 튜닝과 전문 지식이 필요했으나, 이제는 설정 하나만으로 기본 구성보다 뛰어난 비용 효율성과 재현율을 확보할 수 있습니다. * **유연한 적용 범위:** 새 도메인이나 컬렉션을 생성할 때는 물론, 기존에 운영 중인 환경에서도 설정을 업데이트하여 즉시 최적화 기능을 활성화할 수 있습니다. **실제 적용 방법 및 권장 사항** 생성형 AI 애플리케이션이나 대규모 지식 베이스를 구축하려는 개발자는 AWS 콘솔의 '고급 기능' 섹션에서 GPU 가속을 활성화하는 것만으로 즉시 성능 향상을 경험할 수 있습니다. 기술적으로는 인덱스 설정 시 `index.knn.remote_index_build.enabled` 옵션을 `true`로 설정하여 GPU 기반의 원격 인덱스 빌드를 활성화할 것을 권장하며, 이를 통해 대량의 데이터를 벌크(Bulk) API로 처리할 때 최적의 가속 효과를 얻을 수 있습니다.

Snapseed의 인터 (새 탭에서 열림)

Google은 Snapseed의 새로운 '개체 브러시(Object Brush)' 기능을 통해 모바일 기기에서도 전문가 수준의 정교한 이미지 선택 및 편집을 가능하게 하는 실시간 온디바이스 세분화(Segmentation) 기술을 도입했습니다. 이 기술은 사용자의 간단한 터치나 선 그리기만으로 20ms 이내에 대상을 정확히 감지하며, MediaPipe와 LiteRT의 GPU 가속을 활용해 지연 없는 상호작용을 제공합니다. 이를 통해 복잡한 마스킹 작업 없이도 인물, 동물, 하늘 등 특정 객체만을 직관적으로 분리하여 보정할 수 있습니다. **온디바이스 기반의 실시간 대화형 분할** - 대화형 세분화 모델(Interactive Segmenter)을 탑재하여 사용자가 이미지 위의 객체를 탭하거나 선을 그으면 즉시 해당 대상을 선택합니다. - MediaPipe 프레임워크와 LiteRT의 GPU 가속을 통해 모바일 기기에서 모든 프로세스를 처리하며, 20ms 미만의 초저지연 성능을 달성했습니다. - 전경 프롬프트(선택하려는 부분)와 배경 프롬프트(제외하려는 부분)를 자유롭게 추가하거나 제거하며 실시간으로 마스크 영역을 정교하게 수정할 수 있습니다. **교사-학생(Teacher-Student) 학습을 통한 모델 최적화** - 범용적인 객체 인식을 위해 350개 이상의 카테고리에서 수집한 3만 개의 고품질 마스크 데이터를 기반으로 '교사 모델(Interactive Segmenter: Teacher)'을 먼저 학습시켰습니다. - 교사 모델은 정확도는 높지만 모바일에서 구동하기에는 너무 크고 느리기 때문에, 이를 경량화된 '에지 모델(Interactive Segmenter: Edge)'로 지식 증류(Knowledge Distillation)하는 과정을 거쳤습니다. - 약 200만 장 이상의 대규모 데이터셋을 활용하여 교사 모델이 생성한 고정밀 마스크를 에지 모델이 학습하게 함으로써, 작은 크기임에도 높은 교차 분석(IOU) 성능을 유지하도록 설계했습니다. **사용자 행동을 모사한 프롬프트 생성 기술** - 실제 사용자가 객체를 선택하는 방식(스크리블, 탭, 박스 지정 등)을 학습 단계에서 시뮬레이션하여 모델의 반응성을 높였습니다. - 객체 내부에는 전경 프롬프트(Scribbles)를, 외부에는 배경 프롬프트를 무작위로 생성하여 모델이 사용자의 의도를 정확히 파악하도록 훈련했습니다. - 올가미(Lasso) 선택 방식을 지원하기 위해 객체 주위에 박스 프롬프트를 노출하는 학습 과정을 병행하여 다양한 편집 시나리오에 대응합니다. 이 기술은 강력한 AI 모델과 직관적인 UI를 결합하여 모바일 사진 편집의 제약 사항이었던 정밀 선택 문제를 해결했습니다. iOS용 Snapseed의 '수정(Adjust)' 도구 내 개체 브러시를 통해 이 기술을 직접 경험해 볼 수 있으며, 빠르고 효율적인 온디바이스 AI의 실용적인 사례를 보여줍니다.