transformer-architecture

1 개의 포스트

accuracy by utilizing all layers). (새 탭에서 열림)

구글 리서치(Google Research)는 대형 언어 모델(LLM)의 환각 현상을 줄이고 사실적 정확성을 높이기 위한 새로운 디코딩 전략인 **SLED(Self Logits Evolution Decoding)**를 공개했습니다. 이 방법은 모델의 마지막 레이어뿐만 아니라 모든 내부 레이어에서 생성된 정보를 결합하여 모델이 이미 보유한 지식을 최대한 활용하도록 유도합니다. 별도의 외부 데이터나 추가적인 파인튜닝 없이도 객관식 문제, 추론, 개방형 생성 등 다양한 작업에서 성능을 일관되게 향상시킨다는 점이 핵심입니다. ### 기존 디코딩의 한계와 환각 문제 * LLM은 텍스트를 생성할 때 토큰별로 확률 분포를 계산하며, 일반적으로 가장 마지막 레이어의 결과값(logits)만을 사용하여 다음 단어를 예측합니다. * 이러한 방식은 훈련 데이터에서 자주 등장하는 '대중적인' 답변에 치우치기 쉬워, 문맥상 더 정확한 정보가 모델 내부에 있음에도 불구하고 잘못된 정보를 출력하는 환각 현상을 야기합니다. * 기존의 해결책인 검색 증강 생성(RAG)은 외부 지식 베이스를 구축해야 하는 복잡성이 있으며, 파인튜닝은 높은 비용과 자원이 소모된다는 단점이 있습니다. ### 모든 레이어를 활용하는 SLED의 메커니즘 * SLED는 트랜스포머 구조의 중간 레이어들에서 발생하는 '조기 종료(early exit)' 로짓을 활용합니다. * 중간 레이어의 로짓에 마지막 투영 행렬(projection matrix)을 재사용하여, 모든 레이어에서 각각의 토큰 확률 분포를 생성합니다. * 각 레이어에서 얻은 예측값들을 가중 평균(weighted average)하여 최종 확률 분포를 산출함으로써, 모델의 처리 단계별 정보를 통합하고 예측을 정교화합니다. * 이 과정은 모델 내부의 잠재된 지식을 더 명확하게 끌어내어, 마지막 레이어에서 왜곡될 수 있는 정보를 보정하는 역할을 합니다. ### 사실 관계 확인 및 추론 능력 향상 사례 * **지식 추출:** "브리티시컬럼비아의 주도는 어디인가?"라는 질문에 일반 모델은 인지도가 높은 '밴쿠버'를 답할 확률이 높지만, SLED는 중간 레이어의 정보를 종합하여 정답인 '빅토리아'를 선택할 확률을 높여줍니다. * **단계별 추론(CoT):** 수학 문제 풀이 과정에서 일반 모델은 $A \times B = C$와 같은 단순 패턴에 매몰되어 할인율 적용 등을 누락하기 쉽습니다. SLED는 중간 레이어에서 '등호(=)' 대신 추가 연산 기호가 나올 확률이 높다는 점을 포착하여 더 정확한 계산 결과를 도출합니다. * **범용성:** SLED는 다양한 규모와 설정의 LLM에 유연하게 적용 가능하며, 다른 사실성 강화 디코딩 기법과 결합하여 환각을 더욱 효과적으로 억제할 수 있습니다. SLED는 모델의 아키텍처를 변경하거나 외부 시스템을 도입하지 않고도 LLM의 신뢰성을 높일 수 있는 실용적인 대안입니다. 모델 내부의 계층적 정보를 최대한 활용하려는 접근 방식은 특히 고도의 정확성이 요구되는 추론 작업이나 전문 지식 답변 서비스에서 강력한 효과를 발휘할 것으로 기대됩니다. 오픈 소스로 공개된 코드를 통해 기존 워크플로우에 즉시 통합하여 성능 개선을 시도해 볼 수 있습니다.