회귀 언어 모델을 이용한 (새 탭에서 열림)
구글 리서치와 딥마인드 팀은 모든 수치 예측 문제를 텍스트-투-텍스트(text-to-text) 방식으로 해결하는 '회귀 언어 모델(Regression Language Model, RLM)'을 제안했습니다. 이 방법론은 복잡하고 구조화되지 않은 대규모 시스템의 데이터를 텍스트로 변환하여 LLM이 직접 수치를 예측하게 함으로써, 기존의 정형 데이터 기반 회귀 모델이 가졌던 한계를 극복합니다. 특히 구글의 클러스터 관리 시스템인 Borg의 효율성 예측에서 기존 모델보다 뛰어난 성능과 유연성을 입증하며 대규모 시스템 시뮬레이션의 새로운 가능성을 제시했습니다.
텍스트 기반 회귀 모델의 메커니즘
- 모든 입력 데이터($x$)와 타깃 수치($y$)를 구조화된 텍스트 스트링(예: YAML, JSON)으로 표현하여 모델에 입력합니다.
- 모델은 일반적인 LLM과 마찬가지로 다음 토큰 예측(Next Token Prediction) 방식을 사용하며, 교차 엔트로피 손실 함수를 통해 학습합니다.
- 별도의 피처 엔지니어링이나 데이터 정규화 과정이 필요 없으며, 사전 학습된 모델을 활용하거나 처음부터 무작위 초깃값으로 학습시키는 것 모두 가능합니다.
- 수치를 텍스트로 처리함으로써 새로운 데이터 유형이나 하드웨어 사양, 워크로드 패턴이 추가되더라도 모델 구조를 변경하지 않고 유연하게 대응할 수 있습니다.
구글 Borg 시스템을 통한 실증 연구
- 구글의 컴퓨팅 인프라인 Borg의 자원 효율성 지표인 'MIPS per GCU'를 예측하는 데 RLMs를 적용했습니다.
- 약 6,000만 개의 파라미터를 가진 2레이어 인코더-데코더 구조의 모델을 사용해 대규모 클러스터의 상태를 시뮬레이션했습니다.
- 입력 데이터가 최대 100만 토큰에 달하는 경우, 중요도가 높은 피처를 앞쪽에 배치하는 전처리 과정을 통해 모델의 토큰 제한(8,000개) 내에서도 핵심 정보를 보존했습니다.
- 퓨샷(few-shot) 그래디언트 업데이트만으로도 새로운 태스크와 데이터 유형에 빠르게 적응하는 성능을 보여주었습니다.
확률 분포 캡처 및 불확실성 모델링
- RLM의 출력 결과를 여러 번 샘플링함으로써 단순한 점 예측을 넘어 출력값 $y$의 확률 밀도(Density)를 정확하게 추정할 수 있습니다.
- 이를 통해 시스템 내부의 고유한 무작위성(우연적 불확실성, Aleatoric Uncertainty)과 관측 데이터 부족으로 인한 불확실성(인식적 불확실성, Epistemic Uncertainty)을 동시에 파악합니다.
- 실험 결과, RLM은 복잡한 다봉형(multimodal) 분포를 가진 타깃 값도 기존의 MLP(다층 퍼셉트론)나 XGBoost보다 훨씬 정교하게 모사하는 능력을 갖췄음이 확인되었습니다.
성능 비교 및 확장성
- 데이터 양이 적은 상황(Low-data regime)에서 RLM은 전통적인 회귀 모델들보다 월등히 높은 예측 정확도를 기록했습니다.
- 복잡한 시스템의 설정값, 로그 정보, 메타데이터 등을 텍스트 형태로 통합 학습함으로써 시스템 전반에 대한 깊은 이해를 바탕으로 한 시뮬레이션이 가능해졌습니다.
- 구글은 이 방법론을 누구나 활용할 수 있도록 'regress-lm'이라는 오픈소스 라이브러리를 공개하여 연구 커뮤니티의 참여를 독려하고 있습니다.
복잡하고 변화가 빠른 시스템에서 데이터 스키마를 정의하고 피처를 추출하는 데 드는 비용을 줄이고 싶다면, 입력을 텍스트로 직렬화하여 RLM을 적용해 보는 것을 추천합니다. 특히 시뮬레이션 대상의 불확실성이 크고 데이터가 비정형인 환경일수록 텍스트 기반 회귀 모델이 기존 방식보다 더 강력한 범용 근사 도구가 될 수 있습니다.