chaos-testing

2 개의 포스트

Milvus: LINE VOOM의 실시간 추천 시스템을 위한 대규모 벡터 DB 구축기 (새 탭에서 열림)

LINE VOOM은 기존 오프라인 배치 기반 추천 시스템의 한계인 콘텐츠 노출 지연 문제를 해결하기 위해 대규모 벡터 데이터베이스인 Milvus를 도입하여 실시간 추천 시스템을 구축했습니다. 이를 통해 신규 콘텐츠를 즉각적으로 추천 후보군에 반영할 수 있게 되었으며, 철저한 검증 과정을 거쳐 분산 환경에서의 안정성과 성능을 확보했습니다. ### 기존 시스템의 한계와 실시간 추천의 필요성 * 기존 시스템은 포스트 임베딩 생성과 유사도 검색 과정을 일 단위 오프라인 배치로 처리하여, 신규 콘텐츠가 추천되기까지 최대 하루의 시간이 소요되었습니다. * 새해 인사나 스포츠 경기 하이라이트처럼 즉시성이 중요한 '신선한 콘텐츠'가 사용자에게 바로 전달되지 못해 사용자 경험이 저하되는 문제가 있었습니다. * 이를 해결하기 위해 오프라인 저장소를 온라인으로 전환하고, 중간 과정 없이 실시간으로 유사성 검색을 수행할 수 있는 시스템 구조로 개편했습니다. ### 벡터 DB 선정 배경과 Milvus 채택 이유 * 벡터 전용 DB, 오픈소스, 온프레미스 구축 가능성, 고부하 환경에서의 저지연 성능을 핵심 기준으로 삼아 Milvus와 Qdrant를 비교했습니다. * Milvus는 Qdrant 대비 높은 QPS(Query Per Second)와 낮은 지연 시간을 보였으며, 스토리지와 컴퓨팅이 분리된 아키텍처를 통해 더 높은 안정성을 제공했습니다. * 10가지 이상의 다양한 인메모리 인덱스 유형을 지원하여 시나리오별 최적화가 용이하고, 활발한 커뮤니티를 통해 기술적 이슈 대응이 빠르다는 점을 높게 평가했습니다. ### 카오스 테스트를 통한 장애 시나리오 식별 * 분산 환경에서의 안정성을 검증하기 위해 파드 킬(Pod Kill), 스케일 인/아웃 등 고의적인 장애를 주입하는 카오스 테스트를 수행했습니다. * 테스트 결과, 쿼리 코디네이터(Querycoord)나 Etcd 장애 시 컬렉션이 릴리스되거나 메타데이터가 손실되어 검색이 불가능해지는 심각한 결함을 사전에 발견했습니다. * 또한 특정 코디네이터 노드가 단일 실패 지점(SPOF)이 되어 전체 시스템에 영향을 줄 수 있음을 확인했습니다. ### 시스템 안정성 강화를 위한 고가용성 설계 * **컬렉션 고가용성(HA) 구성**: 두 개의 컬렉션에 임베딩을 이중으로 기록(Dual-writing)하고, 장애 발생 시 클라이언트 단에서 별칭(Alias)을 즉시 교체하여 사본 컬렉션을 참조하도록 구현했습니다. * **코디네이터 고가용성 구성**: 단일 파드로 작동하여 장애에 취약한 코디네이터 노드들을 액티브-스탠바이(Active-Standby) 모드로 설정했습니다. * 이를 통해 인덱스 코디네이터 등이 중단되더라도 대기 중인 노드가 즉시 역할을 이어받아 인덱스 생성 실패 및 서비스 중단을 예방할 수 있는 구조를 갖추었습니다. 대규모 실시간 추천 환경에서 벡터 DB를 성공적으로 운영하려면 단순히 검색 성능만 고려하는 것이 아니라, 구성 요소별 장애 시나리오를 면밀히 분석하고 컬렉션 이중화 및 코디네이터 고가용성 설계를 통해 복원력을 확보하는 것이 매우 중요합니다.

How we use formal modeling, lightweight simulations, and chaos testing to design reliable distributed systems (새 탭에서 열림)

분산 시스템의 복잡성으로 인해 발생하는 시스템 수준의 설계 오류를 해결하기 위해, 데이터독(Datadog)은 차세대 메시지 큐 서비스인 'Courier'의 설계 과정에서 포멀 모델링(Formal Modeling)과 경량 시뮬레이션을 도입했습니다. 이 방식은 전통적인 단위 테스트나 카오스 테스트가 발견하기 어려운 고차원적인 설계 결함을 설계 단계에서 미리 검증하고, 시스템의 성능 특성을 통계적으로 예측할 수 있게 해줍니다. 결과적으로 이러한 접근법은 가용성과 신뢰성이 필수적인 핵심 인프라 서비스가 복잡한 실패 모드에서도 안정적으로 동작함을 확인하는 강력한 도구가 되었습니다. **포멀 모델링과 경량 시뮬레이션의 도입** - **포멀 모델링(Formal Modeling):** 고수준의 명세 언어를 사용해 시스템의 속성을 기술하고, 모델 체커를 통해 발생 가능한 모든 상태를 전수 조사함으로써 설계상의 논리적 결함이 없는지 검증합니다. - **경량 시뮬레이션(Lightweight Simulation):** 포멀 모델링이 확인하기 어려운 지연 시간(Latency), 비용, 확장성 등의 통계적 성능 지표를 실제 부하 환경과 유사한 조건에서 실행하여 분석합니다. - **도입 배경 및 트레이드오프:** 구현 자체를 검증하지는 못하고 모델 유지 보수의 오버헤드가 발생하지만, 대규모 장애(2023년 3월 사례)를 방지하고 설계의 정확성을 보장하기 위해 도입되었습니다. **차세대 메시지 큐 서비스: Courier** - **배경:** 기존 Redis 기반 시스템의 처리량 및 확장성 한계를 극복하기 위해 설계된 멀티테넌트 메시지 큐 서비스입니다. - **최소 1회 전달(At-least-once delivery):** 메시지 손실 없이 전송을 보장하며, 실패 시 데드 레터 큐(DLQ)로 이동하여 알림 누락을 방지합니다. - **점진적 성능 저하(Graceful Degradation):** 가용 컴퓨팅 자원이 줄어들더라도 처리량이 급격히 추락하지 않고 선형적으로 감소하도록 설계하여 전체 서비스 마비를 방지합니다. - **수평적 확장성:** 컴퓨팅 자원 추가에 따라 처리량이 선형적으로 증가하는 구조를 목표로 합니다. **멀티테넌시 및 고가용성을 위한 아키텍처** - **FoundationDB 기반 샤딩:** 여러 개의 FoundationDB 클러스터를 구축하고, 각 테넌트를 특정 클러스터 조합(예: 8개 중 4개 선택)에 샤딩하여 테넌트 간 간섭을 최소화합니다. - **폭발 반경(Blast Radius) 제어:** 특정 테넌트가 4개의 클러스터에 부하를 주더라도, 다른 테넌트는 최소 25% 이상의 가용 용량을 확보할 수 있도록 격리 수준을 높였습니다. - **브로커 레이어(Broker Layer):** gRPC API를 통해 샤딩 로직을 처리하고, 백엔드 클러스터의 상태 점검(Health Check)을 수행하며 3개의 가용 영역(AZ)에 분산 배치되어 고가용성을 유지합니다. 이러한 포멀 모델링과 시뮬레이션 기법은 복잡한 분산 시스템을 구축할 때 직관에 의존하는 대신 수학적·통계적 근거를 바탕으로 의사결정을 내릴 수 있게 합니다. 특히 Courier와 같이 신뢰성이 최우선인 기반 시스템을 설계할 때, 초기 단계에서의 철저한 검증은 추후 발생할 수 있는 막대한 수정 비용과 대규모 장애 위험을 줄이는 데 매우 효과적인 투자입니다.