LLM의 행동 성향 정렬 평가 (새 탭에서 열림)
구글 리서치는 대규모 언어 모델(LLM)의 행동 성향을 정밀하게 측정하기 위해 심리학적 방법론인 상황 판단 테스트(SJT)를 도입한 새로운 평가 프레임워크를 제시했습니다. 연구 결과, 최신 대형 모델들은 인간의 의견이 만장일치로 일치하는 상황에서는 높은 정렬 수준을 보였으나, 의견이 갈리는 복잡한 사회적 상황에서는 인간의 다양한 관점을 반영하지 못하고 특정 답변에 과하게 확신하는 경향을 보였습니다. 이는 LLM이 인간 사회의 미묘한 역학을 더욱 정교하게 탐색하기 위해 행동 정렬 방식의 개선이 필요함을 시사합니다. **심리학적 기반의 상황 판단 테스트(SJT) 설계** * 단순한 자기보고식 설문(예: "나는 의견을 빨리 표현한다")의 한계를 극복하기 위해, 실제 사용자-어시스턴트 상호작용 상황을 가정한 시나리오 기반의 SJT를 구축했습니다. * IRI(공감), ERQ(정서 조절) 등 검증된 심리학적 척도를 바탕으로 전문적 침착함, 갈등 해결, 일상적 의사결정 등 다양한 사회적 맥락을 반영하는 시나리오를 생성했습니다. * 모델의 자연어 응답을 'LLM-as-a-judge' 방식을 통해 두 가지 대조되는 행동 선택지 중 하나로 매핑하고, 이를 550명의 인간 주석자가 내놓은 반응 분포와 비교하여 정렬도를 측정했습니다. **모델 규모에 따른 행동 방향성 일치도** * 25개의 LLM을 분석한 결과, 25B(250억 개) 미만의 소형 모델은 인간의 다수 의견과 일치하는 선택을 하는 '방향성 일치도'가 현저히 낮았으며, 때로는 무작위 수준의 선택을 보였습니다. * 120B 이상의 대형 모델과 최신 프런티어 모델들은 인간의 합의가 만장일치(10/10)인 상황에서 거의 완벽한 일치도를 보였으나, 합의율이 80~90%로 낮아지면 모델의 성능도 80%대 초중반에서 정체되었습니다. * 구체적인 일탈 사례로, 모델은 인간이 '침착함'을 권장하는 전문적인 상황에서 '감정적 개방성'을 지나치게 독려하거나, 갈등 상황에서 자기 주장을 하기보다 과도하게 화합만을 우선시하는 경향을 보였습니다. **분포적 정렬의 한계와 과잉 확신 문제** * 인간 사회의 다양한 관점을 반영해야 한다는 '분포적 다원주의' 관점에서 볼 때, 인간의 의견이 갈리는 상황에서는 모델의 응답 확률 분포도 낮아져야(즉, 확신이 줄어들어야) 합니다. * 그러나 테스트된 25개 모델 모두 인간의 합의 수준과 상관없이 특정 선택지에 대해 체계적인 '과잉 확신(Overconfidence)'을 보이는 것으로 나타났습니다. * 인간들 사이에서 선호도가 팽팽하게 나뉘는 시나리오에서도 모델은 확률 분포를 고르게 분산시키지 못하고, 특정 행동이 정답인 것처럼 높은 확신을 가지고 응답하는 한계를 드러냈습니다. 이 연구는 LLM이 인간의 행동 양식을 단순히 흉내 내는 것을 넘어, 사회적 맥락에 따라 유연하게 대응하고 인간 의견의 다양성을 존중하도록 설계되어야 함을 강조합니다. 향후 모델 개발 시 단순한 선호도 최적화를 넘어, 인간의 미묘한 사회적 역동성과 다원적 가치를 반영할 수 있는 정렬 기술이 중요하게 작용할 것입니다.