대규모 언어 모델(LLM) 기반의 애플리케이션은 겉으로 보기에 단순해 보이지만, 내부적으로는 검색, 랭킹, 프롬프트 구성 등 복잡한 확률적 단계들이 체인처럼 연결되어 있어 미세한 수정만으로도 성능이 급변할 수 있습니다. Dropbox Dash 개발팀은 이러한 불확실성을 통제하기 위해 평가 프로세스를 단순한 사후 점검이 아닌 '프로덕션 코드'와 동일한 수준의 엄격한 표준으로 관리해야 한다고 강조합니다. 성공적인 AI 서비스를 위해서는 공공 및 내부 데이터를 혼합한 정교한 데이터셋 구축과 더불어, 단순 NLP 지표를 넘어선 LLM 기반의 자동화된 평가 체계를 구축하는 것이 핵심입니다.

다각적인 데이터셋 구축 전략

공공 데이터셋을 통한 베이스라인 수립: Google의 Natural Questions, MS MARCO, MuSiQue 등을 활용해 대규모 문서 검색, 다중 문서 처리, 멀티홉(multi-hop) 질의응답 성능을 초기 단계에서 검증합니다.
실제 사용자 패턴 반영: 사내 테스트(Dogfooding)를 통해 수집된 로그 데이터를 익명화하고 랭킹화하여 실제 사용자의 질문 방식과 의도를 반영한 대표 쿼리셋을 구성합니다.
합성 데이터(Synthetic Data) 활용: 표, 이미지, 튜토리얼 등 다양한 콘텐츠 타입에 대해 LLM이 직접 질문과 답변 쌍을 생성하게 함으로써 실세계의 복잡한 사례들을 포괄합니다.

전통적 지표의 한계와 LLM 평가 도입

전통적 NLP 지표의 제약: BLEU, ROUGE, BERTScore 등은 계산이 빠르지만, 답변의 사실 관계나 출처 인용의 정확성, 할루시네이션(환각) 여부를 판단하는 데에는 한계가 있습니다.
LLM 기반 판독(LLM-as-a-judge): 평가 모델(Judge Model)이 답변의 사실성, 질문에 대한 직접적인 응답 여부, 톤앤매너 등을 검토하며, 단순 점수뿐만 아니라 판단 근거(Justification)를 함께 제공하도록 설계합니다.
평가 모듈의 소프트웨어화: 평가 프롬프트와 기준(Rubric)을 소프트웨어 모듈처럼 버전 관리하고, 정기적으로 정답 셋(Gold Standard)과 비교하여 평가 모델 자체의 성능을 교정합니다.

엄격한 워크플로우와 품질 관리

구조화된 평가 결과 산출: JSON 형식으로 결과(사실 정확도, 인용 적절성, 명확성 등)를 출력하여 시스템이 즉각적으로 성공과 실패를 판단할 수 있는 '라이브 알람' 체계를 구축합니다.
휴먼 인 더 루프(Human-in-the-loop): 자동화된 평가가 전체의 대부분을 담당하더라도, 매 배포 시 엔지니어가 회귀 테스트 세트의 5~10%를 수동으로 검수하여 평가 모델의 편향이나 오류를 잡아냅니다.
반복적인 프롬프트 개선: 수동 검수에서 발견된 불일치 사례를 추적하여 평가 프롬프트를 수정하거나 모델을 교체함으로써 전체적인 평가 루프의 신뢰도를 높입니다.

실질적인 AI 성능 향상을 위해서는 모델 훈련만큼이나 정교한 평가 인프라에 투자해야 합니다. 공공 데이터로 기초를 다지고 내부 로그로 실전 감각을 더하며, LLM 평가자를 엄격하게 관리하는 일련의 과정이 뒷받침될 때 비로소 신뢰할 수 있는 AI 서비스를 운영할 수 있습니다.