storage-optimization

2 개의 포스트

Amazon S3 Tables를 위한 복 (새 탭에서 열림)

AWS가 Amazon S3 Tables를 위한 '인텔리전트 티어링(Intelligent-Tiering)'과 '복제(Replication)' 기능을 새롭게 출시했습니다. 이번 업데이트를 통해 사용자는 데이터 액세스 패턴에 따라 스토리지 비용을 자동으로 최적화하고, 별도의 복잡한 아키텍처 없이도 여러 리전 및 계정 간에 Apache Iceberg 테이블 복제본을 일관되게 유지할 수 있습니다. 결과적으로 대규모 정형 데이터 관리의 비용 효율성과 글로벌 데이터 가용성이 획기적으로 향상되었습니다. **S3 테이블 인텔리전트 티어링을 통한 비용 최적화** * 데이터 액세스 빈도에 따라 Frequent Access, Infrequent Access(40% 저렴), Archive Instant Access(IA보다 68% 저렴) 등 세 가지 저지연 계층으로 데이터를 자동 이동합니다. * 30일 동안 접근이 없으면 IA 계층으로, 90일이 지나면 AIA 계층으로 전환되며, 이 과정에서 애플리케이션 코드 수정이나 성능 저하가 발생하지 않습니다. * 테이블 압축(Compaction), 스냅샷 만료, 미참조 파일 제거와 같은 유지 관리 작업은 데이터의 액세스 계층에 영향을 주지 않고 수행됩니다. * 특히 압축 작업은 Frequent Access 계층의 데이터만 대상으로 실행되어, 활발하게 쿼리되는 데이터의 성능은 높이고 차가운(Cold) 데이터에 대한 불필요한 처리 비용은 줄입니다. * AWS CLI의 `put-table-bucket-storage-class` 명령을 사용해 테이블 버킷 수준에서 기본 스토리지 클래스를 설정할 수 있습니다. **리전 및 계정 간 S3 테이블 복제 지원** * 수동 동기화 없이도 AWS 리전 및 계정 간에 일관된 Apache Iceberg 읽기 전용 복제본(Read Replica)을 생성하고 유지합니다. * 소스 테이블에서 발생한 모든 업데이트를 시간 순서대로 복제하며, Iceberg 테이블의 핵심인 스냅샷의 부모-자식 관계를 그대로 보존합니다. * 소스 테이블이 업데이트된 후 몇 분 이내에 복제본에 반영되며, 각 복제본은 소스와 독립적인 암호화 설정 및 데이터 보존 정책을 가질 수 있습니다. * 전 세계에 분산된 팀들이 로컬 리전에서 복제된 데이터를 쿼리하게 함으로써 네트워크 지연 시간을 최소화하고 데이터 보호 및 규정 준수 요건을 충족합니다. 대규모 Iceberg 데이터셋을 운영하는 조직은 인텔리전트 티어링을 통해 운영 부담 없이 스토리지 비용을 절감하고, 복제 기능을 활용해 글로벌 규모의 데이터 메쉬 아키텍처를 보다 쉽게 구축할 수 있습니다. 특히 데이터가 늘어남에 따라 수동으로 비용을 관리하기 어려운 환경에서 이 두 기능은 필수적인 관리 도구가 될 것입니다.

Amazon S3 Storage Lens, 성능 (새 탭에서 열림)

Amazon S3 Storage Lens에 성능 지표 추가, 수십억 개의 접두사(Prefix) 지원, S3 테이블(S3 Tables)로의 데이터 내보내기 등 세 가지 주요 기능이 업데이트되었습니다. 이번 업데이트를 통해 사용자는 스토리지 성능과 사용 패턴에 대한 더 깊은 통찰력을 얻고, 데이터 기반의 의사결정을 통해 애플리케이션 성능 최적화와 비용 절감을 실현할 수 있습니다. 특히 대규모 데이터 세트 관리의 복잡성을 해결하고 분석 효율성을 대폭 향상시킨 것이 특징입니다. ### 8가지 신규 성능 지표 카테고리 도입 * **성능 병목 현상 파악**: 읽기/쓰기 요청 크기, 객체 크기 분포, 동시 PUT 503 에러 등의 지표를 통해 애플리케이션 성능을 저하시키는 요인을 식별합니다. * **최적화 가이드 제공**: 작은 객체가 성능을 저하시키는 경우 객체 번들링이나 S3 Express One Zone 스토리지 클래스 활용을 제안하며, 대용량 요청은 멀티파트 업로드(MPU)나 AWS CRT 사용을 권장합니다. * **데이터 전송 효율성 분석**: 리전 간 데이터 전송량과 요청 수를 확인하여 교차 리전 액세스로 인한 성능 저하 및 비용 증가 문제를 파악하고, 컴퓨팅 자원과 데이터의 배치를 최적화할 수 있습니다. * **활성 데이터 식별**: 특정 기간 내에 액세스된 고유 객체의 비율을 분석하여 빈번하게 사용되는 '핫 데이터'를 고성능 스토리지 계층으로 이동시키는 근거로 활용합니다. ### 수십억 개 규모의 접두사(Prefix) 분석 지원 * **대규모 확장성**: 기존의 분석 범위를 뛰어넘어 수십억 개의 접두사가 포함된 거대한 스토리지 구조에서도 세밀한 가시성을 제공합니다. * **계층적 가시성**: 조직, 계정, 버킷뿐만 아니라 매우 깊고 복잡한 접두사 수준에서도 성능 및 사용량 지표를 모니터링할 수 있어 대규모 데이터 레이크 관리에 용이합니다. ### S3 테이블로의 직접 내보내기 및 분석 통합 * **데이터 통합 분석**: S3 Storage Lens의 지표 데이터를 신규 기능인 S3 Tables로 직접 내보낼 수 있어, 별도의 복잡한 ETL 과정 없이도 대규모 메타데이터를 효율적으로 쿼리할 수 있습니다. * **SQL 기반 분석**: 내보낸 데이터를 S3 테이블 형식으로 저장하면 표준 SQL을 사용하여 장기적인 스토리지 트렌드를 분석하거나 커스텀 보고서를 생성하기가 훨씬 수월해집니다. S3 Storage Lens의 고급 티어(Advanced Tier)를 활성화하면 이러한 신규 성능 지표를 즉시 활용할 수 있습니다. 특히 성능에 민감한 워크로드를 운영 중이라면, '고유 객체 액세스' 지표를 통해 자주 사용되는 데이터를 식별하고 이를 S3 Express One Zone으로 이전하여 지연 시간을 최소화하고 비용 효율성을 극대화할 것을 추천합니다.