How we optimized LLM use for cost, quality, and safety to facilitate writing postmortems (새 탭에서 열림)

장애 해결 후 포스트모템(장애 회고록)을 작성하는 과정은 조직의 학습과 복구 능력 향상을 위해 필수적이지만, 엔지니어들에게는 상당한 시간과 노력이 드는 번거로운 작업입니다. 이를 해결하기 위해 Datadog은 Bits AI에 LLM을 도입하여 정형화된 장애 메타데이터와 슬랙의 비정형 대화 데이터를 결합해 포스트모템 초안을 자동 생성하는 기능을 구현했습니다. 이 프로젝트는 단순한 자동화를 넘어, 환각 현상을 억제하고 엔지니어가 직접 내용을 검토하며 학습하는 '인간 중심의 통제권'을 유지하는 데 초점을 맞추었습니다.

LLM 기반 포스트모템 도입 시 직면한 과제

  • 데이터 정확성 및 환각(Hallucinations): LLM은 문법적으로는 완벽해 보이지만 사실이 아닌 내용을 그럴듯하게 생성하는 경향이 있습니다. 팩트가 생명인 장애 보고서에서 이러한 비결정론적 특성을 제어하는 것이 가장 큰 과제였습니다.
  • 비용, 속도, 품질의 트레이드오프: GPT-4와 같은 고성능 모델은 정확도가 높지만 GPT-3.5에 비해 비용이 최대 50배 비싸고 생성 속도가 느려, 사용자 경험과 운영 비용 사이의 균형점이 필요했습니다.
  • 학습 과정의 훼손 방지: AI가 완성된 결과물을 그대로 제공하면 엔지니어가 장애 원인을 깊이 파고드는 학습 기회를 놓칠 수 있습니다. 따라서 AI는 '작성 보조 도구'로서 초안을 제공하고 최종 판단은 인간이 하도록 설계해야 했습니다.
  • 보안 및 개인정보 보호: 장애 데이터에는 민감한 정보나 비밀번호 등이 포함될 수 있으므로, LLM에 데이터를 전달하기 전 이를 사전에 필터링하는 보안 레이어가 필수적이었습니다.

정확도 향상을 위한 기술적 해결책

  • 커스텀 API 및 데이터 정제 프레임워크: 슬랙 대화와 장애 관리 앱에서 데이터를 추출한 뒤, 민감 정보를 제거하고 구조화하여 LLM이 처리하기 쉬운 형태로 변환하는 전용 API를 개발했습니다.
  • 정형·비정형 데이터의 결합: 수동으로 입력된 장애 메타데이터(정형)뿐만 아니라, 장애 당시의 급박한 상황이 담긴 슬랙 대화 내용(비정형)을 함께 분석하여 문맥적으로 더 정확한 초안을 생성하도록 했습니다.
  • 프롬프트 엔지니어링 및 파라미터 튜닝: 100시간 이상을 투입해 프롬프트 구조를 반복 수정했으며, 모델의 온도(Temperature) 설정을 낮추어 출력의 일관성을 높이고 무작위성을 줄였습니다.
  • 점진적 검증 프로세스: 포스트모템 작성을 돕기 전, 먼저 짧은 '장애 요약 기능'을 구현하여 모델의 성능을 테스트하고 여기서 얻은 인사이트를 긴 문서 작성 기능에 피드백하는 방식을 취했습니다.

모델 출력 평가 및 피드백 루프

  • 정성적/정량적 평가 병행: 기존에 사람이 작성한 포스트모템과 AI가 생성한 초안을 정확성, 간결성, 유용성 등의 항목으로 비교하는 설문 조사를 실시하여 품질을 지속적으로 개선했습니다.
  • 사용자 피드백 반영: 초안 생성 과정에서 엔지니어가 수정하는 내용을 추적하여, 어떤 부분이 부족하고 어떤 정보가 더 보강되어야 하는지 데이터 기반으로 파악하고 있습니다.

LLM을 이용한 포스트모템 작성 지원은 엔지니어의 업무 부담을 줄여주는 동시에, 장애로부터 배우는 조직 문화를 더욱 공고히 하는 강력한 도구가 될 수 있습니다. 다만, AI의 결과물을 맹신하기보다는 엔지니어가 비판적으로 검토할 수 있는 '초안' 단계로 활용하는 것이 시스템의 신뢰성과 교육적 가치를 유지하는 핵심입니다.