From Hive to Iceberg: The Secret to 12x Faster Data Reflection (opens in new tab)
들어가며 안녕하세요. LINE Plus에서 통합 커머스 개발을 맡고 있는 김성도, 고상일입니다. 통합 커머스에서는 HBase 스냅숏과 Hive를 사용해 ETL(Extract-Transform-Load, 원본 데이터를 추출·변환해 분석이나 처리에 적합한 형태로 적재하는 파이프라인)을 구축해서 사용하고 있었습니다(참고). 수많은 상품 데이터 속에서 특정 조건을 만족하는 상품을 찾거나, 상태가 변경돼 일괄 처리해야 하는 상품들을 추출한 후 Kafka에 전송하는 등 요구 사항에 맞게 여러 방식으로 활용…