hallucinations

1 개의 포스트

검색 증강 생성에 대한 (새 탭에서 열림)

검색 증강 생성(RAG) 시스템의 성능을 최적화하기 위해 단순히 질문과 '관련된' 정보를 찾는 것을 넘어, 답변을 내기에 '충분한 문맥(Sufficient Context)'이 제공되었는지를 판단하는 새로운 관점을 제시합니다. 연구팀은 문맥의 충분성을 측정하는 자동 평가 도구(autorater)를 개발하여 RAG 시스템의 실패 원인을 분석하고 할루시네이션(환각)을 줄일 수 있는 방법론을 입증했습니다. 이를 통해 최신 대규모 언어 모델(LLM)이 충분한 정보 환경에서 어떻게 작동하는지 규명하고, 실제 서비스인 Vertex AI RAG 엔진에 해당 기술을 적용하여 정확도를 개선했습니다. **충분한 문맥의 정의와 필요성** * **관련성 vs 충분성**: 기존 RAG 연구는 질문과 문맥의 '관련성'에 집중했으나, 관련성이 높더라도 정답을 도출하기 위한 핵심 정보가 빠져 있으면 LLM은 잘못된 답변을 내놓을 위험이 큽니다. * **충분한 문맥**: 질문에 대해 확정적인 답변을 제공하는 데 필요한 모든 정보가 포함된 상태를 의미합니다. * **불충분한 문맥**: 질문과 관련은 있지만 정보가 불완전하거나, 결론을 내릴 수 없거나, 모순되는 정보가 포함된 경우를 말합니다. **LLM 기반 자동 평가 도구(Autorater)의 설계 및 성능** * **평가 메커니즘**: 질문과 검색된 문맥 쌍을 입력받아 해당 문맥이 답변에 충분한지 여부를 'True/False'로 분류하며, 체인 오브 쏘트(CoT) 및 1-샷 프롬프팅을 통해 성능을 최적화했습니다. * **높은 분류 정확도**: Gemini 1.5 Pro를 활용한 이 방식은 별도의 미세 조정 없이도 전문가가 직접 레이블링한 데이터와 비교했을 때 93% 이상의 높은 일치율을 보였습니다. * **기존 방식과의 비교**: 정답 키워드 포함 여부를 확인하는 방식이나 기존의 자연어 추론(NLI) 모델 기반 방식보다 Gemini를 활용한 프롬프팅 방식이 뛰어난 문맥 이해력을 바탕으로 더 정교한 판단을 내리는 것으로 나타났습니다. * **효율적 대안**: 계산 자원의 효율성이 필요한 경우, Gemini보다는 다소 성능이 낮지만 미세 조정된 FLAMe(PaLM 24B 기반) 모델이 대안이 될 수 있음을 확인했습니다. **RAG 시스템 성능 분석 및 실무적 통찰** * **SOTA 모델의 특성**: Gemini, GPT, Claude와 같은 최신 모델들은 충분한 문맥이 주어지면 정답률이 매우 높지만, 문맥이 불충분할 때 "모른다"고 답하며 할루시네이션을 방지하는 능력에는 차이가 있었습니다. * **성능 최적화 도구**: 이번 연구의 개념은 Google Cloud Vertex AI RAG 엔진의 'LLM Re-Ranker' 기능으로 구현되었습니다. 이는 검색된 스니펫을 질문과의 관련성 및 충분성에 따라 재정렬하여 nDCG와 같은 검색 지표 및 전체 시스템 정확도를 높입니다. * **실패 분석**: RAG 시스템의 실패는 단순히 검색 품질의 문제뿐만 아니라, 충분한 정보가 있음에도 모델이 이를 제대로 추출하지 못하거나 불충분한 정보에서 억지로 답을 지어내는 과정에서 발생함을 확인했습니다. RAG 시스템의 신뢰도를 높이기 위해서는 단순히 더 많은 문서를 검색하는 것보다, 검색된 결과가 질문에 답하기에 '충분한지'를 먼저 검증하는 단계가 필수적입니다. 개발자는 고성능 LLM을 활용한 자동 평가 단계를 파이프라인에 추가하거나, 리랭커(Re-ranker)를 도입하여 문맥의 질을 관리함으로써 할루시네이션을 획기적으로 줄일 수 있습니다.