모놀리스 해체: 대규모 (새 탭에서 열림)
Debug PostgreSQL query latency faster with EXPLAIN ANALYZE in Datadog Database Monitoring
88 개의 포스트
Debug PostgreSQL query latency faster with EXPLAIN ANALYZE in Datadog Database Monitoring
2023년 3월 발생한 대규모 장애 당시 Datadog은 전체 컴퓨팅 용량의 60%를 상실했으며, 이를 복구하기 위해 계층화된 쿠버네티스 구조에 따른 체계적인 재부팅 전략을 수행했습니다. EU1 리전의 복구 과정에서 팀은 단순한 노드 재가동을 넘어 클라우드 제공업체의 피어링 그룹 제한과 서브넷 IP 고갈이라는 예상치 못한 인프라 한계에 직면했습니다. 이 글은 대규모 인프라 장애 시 제어 평면(Control Plane)의 복구 순서와 백로그 처리를 위한 과도한 스케일 아웃이 유발하는 2차 병목 현상을 상세히 다룹니다. **계층적 쿠버네티스 구조와 복구 전략** * Datadog은 관리 효율성을 위해 '부모(Parent)-자식(Child)' 형태의 계층적 클러스터 구조를 사용합니다. 부모 클러스터는 자식 클러스터의 제어 평면을 포드(Pod) 형태로 호스팅하며, 자식 클러스터는 실제 애플리케이션 워크로드를 실행합니다. * 장애의 원인이 된 시스템 패치(Ubuntu 22.04의 systemd-networkd 관련 이슈)로 인해 네트워크 연결이 끊긴 노드들을 복구하기 위해 엄격한 순서에 따른 재부팅을 진행했습니다. * 복구는 (1) 부모 클러스터 제어 평면 노드 재시작, (2) 부모 노드 위에서 실행되는 자식 클러스터 제어 평면 포드 복구, (3) 수천 개의 자식 클러스터 애플리케이션 노드 재시작 순으로 이루어졌습니다. * 특히 제어 평면에 과부하가 걸리지 않도록 노드 재시작 속도를 조절했으며, 워크로드의 중요도에 따라 클러스터별 복구 우선순위를 설정했습니다. **인프라 확장 제한으로 인한 복구 지연** * 모든 컴퓨팅 용량을 복구한 후, 장애 동안 쌓인 대규모 데이터 백로그를 처리하기 위해 급격한 스케일 아웃(Scale-out)을 시도하는 과정에서 예상치 못한 제한에 부딪혔습니다. * **GCP 네트워크 피어링 제한:** EU1 리전 내 인스턴스 수가 15,500개에 도달하며 구글 클라우드의 네트워크 피어링 그룹 제한에 걸려 약 4시간 동안 추가 인스턴스 생성이 차단되었습니다. 이는 구글 측과의 긴급 협력을 통해 한도를 증설하여 해결했습니다. * **서브넷 IP 주소 고갈:** 로그 및 트레이스 처리를 담당하는 특정 클러스터들이 평상시보다 2배 이상 스케일 아웃을 시도하면서 서브넷 내 사용 가능한 IP 주소가 바닥났습니다. * 평소 IP 사용률을 66% 이하로 유지하도록 모니터링해왔으나, 백로그 처리를 위한 폭발적인 수요는 평상시 변동 폭을 훨씬 상회하는 수준이었습니다. 결과적으로 특정 클러스터들은 약 6시간 동안 최적의 속도로 데이터를 처리하지 못했습니다. **교훈 및 실용적 권장사항** 복구 계획을 세울 때는 단순히 시스템을 정상화하는 것을 넘어, 장애 이후 발생할 '데이터 백로그 처리'를 위한 초과 용량 확보 시나리오를 반드시 고려해야 합니다. 클라우드 제공업체의 하드웨어 리소스 한계뿐만 아니라 네트워크 피어링, 서브넷 IP 할당 범위와 같은 소프트웨어적/구성적 제한 사항을 사전에 파악하고, 극단적인 스케일링 상황에서도 유연하게 대처할 수 있는 여유 용량(Headroom) 설계가 필수적입니다.
Route your monitor alerts with Datadog monitor notification rules
2023년 3월, 데이터독(Datadog)은 인프라의 약 50~60%가 중단되는 대규모 장애를 겪으며 시스템의 일부가 마비될 때 플랫폼 전체가 완전히 다운된 것처럼 보이는 '정방형 파형(Square-wave)' 장애 패턴을 확인했습니다. 이를 계기로 데이터독은 모든 장애 상황을 완벽히 방지하는 것은 불가능하다는 점을 인정하고, 장애 발생 시에도 시스템이 점진적으로 기능을 유지하는 '우아한 성능 저하(Graceful Degradation)'를 최우선 가치로 삼게 되었습니다. 데이터 유실 방지, 실시간 데이터 우선 처리, 부분적인 결과 제공을 핵심 원칙으로 설정하여 인프라 전반의 회복 탄력성을 재설계하는 대대적인 변화를 추진하고 있습니다. **"결함 없음" 설계의 한계와 Square-wave 장애** - 과거 데이터독은 데이터의 '정확성'을 보장하기 위해 100% 완벽한 데이터가 수집될 때까지 쿼리 결과를 반환하지 않도록 시스템을 최적화했습니다. - 이러한 설계는 일부 노드가 다운되었을 때 시스템 전체가 응답을 멈추게 하여, 사용자에게는 플랫폼이 완전히 중단된 것처럼 보이는 이진적(Binary) 장애를 초래했습니다. - 고전적인 근본 원인 분석(RCA)을 통해 특정 트리거를 제거할 수는 있지만, 소프트웨어 업데이트, 인증서 만료 등 무한한 장애 원인을 모두 예방하는 것은 불가능하다는 결론에 도달했습니다. **우아한 성능 저하를 위한 새로운 우선순위** - 시스템 구성 요소가 완벽하게 작동해야만 가치를 제공하는 '결함 방지(Never-fail)' 아키텍처에서 '더 잘 실패(Fail better)'하는 구조로 전환했습니다. - 데이터 유실 방지: 처리가 늦어지더라도 고객의 데이터가 영구적으로 사라지지 않도록 보장합니다. - 실시간성 우선: 가용 자원이 부족할 때 오래된 데이터보다 실시간 데이터를 우선적으로 처리하여 현재 상태를 파악할 수 있게 합니다. - 부분 결과 제공: 모든 데이터가 준비되지 않았더라도 정확도가 확인된 범위 내에서 부분적인 데이터를 즉시 시각화합니다. **데이터 유실 방지를 위한 영구적 수집 저장소(Persistent Intake Storage)** - 장애 당시 메모리나 로컬 디스크에만 머물던 미복제 데이터가 노드 유실과 함께 사라졌던 문제를 해결하기 위해 파이프라인 초기 단계에 디스크 기반 영구 저장소를 도입했습니다. - 수집(Intake) 직후 데이터를 복제된 저장소에 즉시 기록함으로써, 후속 처리 시스템이 정체되거나 노드가 유실되더라도 데이터 손실 없이 재처리가 가능하도록 설계했습니다. - 이를 통해 네트워크 지연이나 하위 시스템의 과부하 상황에서도 데이터 수집 단계에서의 안정성을 확보했습니다. 모든 장애를 차단하려는 시도보다는, 장애 상황에서도 시스템이 어떻게 부분적으로나마 작동할 수 있을지를 설계 단계부터 고민해야 합니다. 대규모 분산 시스템을 운영한다면 데이터의 완전성(Completeness)과 가용성(Availability) 사이의 균형을 재검토하고, 최악의 순간에도 사용자에게 최소한의 가시성을 제공할 수 있는 복구 탄력성을 구축하는 것이 권장됩니다.
프로덕션 환경에서의 성능 진단은 복잡하지만, Continuous Profiler의 타임라인 뷰를 사용하면 코드 레벨의 비효율성을 시각적으로 즉각 파악할 수 있습니다. 이 도구는 CPU 사용량뿐만 아니라 대기 시간과 런타임 오버헤드를 시간 순서대로 나열하여, 특정 시점에 발생한 성능 저하의 근본 원인을 정확히 짚어냅니다. 이를 통해 개발자는 막연한 추측이 아닌 구체적인 데이터를 바탕으로 애플리케이션의 지연 시간(latency)을 단축하고 리소스 효율을 극대화할 수 있습니다. **타임라인 뷰를 통한 스레드 상태의 시각화** * 개별 스레드의 활동을 밀리초(ms) 단위의 시각적 타임라인으로 제공하여, 특정 시점에 코드가 실제로 실행 중인지(On-CPU) 아니면 외부 요인으로 대기 중인지(Off-CPU)를 명확히 구분합니다. * 전체적인 샘플링 통계만으로는 알 수 없는 스레드 간의 작업 순서와 실행 흐름을 직관적으로 이해할 수 있게 돕습니다. **On-CPU 및 Off-CPU 활동 분석을 통한 병목 식별** * **On-CPU 분석:** 복잡한 알고리즘 연산이나 무한 루프 등 CPU 자원을 과도하게 점유하는 코드 구간을 식별하여 로직 최적화의 근거를 제공합니다. * **Off-CPU 분석:** 네트워크 I/O 대기, 디스크 읽기/쓰기 요청, 혹은 시스템 호출로 인해 코드가 멈춰 있는 구간을 찾아내어 외부 서비스 의존성 문제를 진단합니다. **런타임 오버헤드와 가비지 컬렉션(GC)의 영향 파악** * 가비지 컬렉션(GC)의 발생 시점과 그로 인한 애플리케이션 중단(Stop-the-world) 시간을 타임라인 상에서 직접 확인하여 메모리 할당 패턴을 개선할 수 있습니다. * 뮤텍스(Mutex) 잠금 경합(Lock Contention)이 발생하는 지점을 시각화하여, 멀티스레드 환경에서 스레드들이 서로 자원을 기다리며 낭비되는 시간을 최소화합니다. **분산 추적(Tracing) 데이터와의 연계 진단** * 특정 요청(Trace)이 처리되는 과정과 해당 시점의 프로파일링 데이터를 결합하여, 개별 사용자 요청이 정확히 어떤 코드 라인에서 지연되었는지 정밀하게 추적합니다. * 서비스 전체의 메트릭과 개별 코드의 실행 궤적을 연결함으로써 문제 해결을 위한 컨텍스트 전환 비용을 줄여줍니다. 성능 문제를 해결하기 위해서는 단순히 '느리다'는 현상을 아는 것을 넘어 '왜 느린지'에 대한 실행 맥락을 파악해야 합니다. Continuous Profiler의 타임라인 뷰를 활용해 코드의 실제 실행 동작을 상시 관찰함으로써, 예기치 못한 성능 저하에 선제적으로 대응하고 인프라 비용을 효율화할 것을 권장합니다.