test-time-memorization

1 개의 포스트

Titans + MIRAS: AI가 (새 탭에서 열림)

Google Research가 발표한 Titans 아키텍처와 MIRAS 프레임워크는 기존 트랜스포머 모델의 연산 비용 문제를 해결하고 AI에게 강력한 장기 기억 능력을 부여하기 위한 혁신적인 접근법입니다. 이 기술들은 모델이 실행되는 도중에 실시간으로 핵심 메모리를 업데이트하는 '테스트 시간 암기(test-time memorization)' 기능을 통해, 오프라인 재학습 없이도 방대한 문맥을 신속하고 정확하게 처리할 수 있게 해줍니다. 결과적으로 RNN의 처리 속도와 트랜스포머의 정확도를 결합하여 문서 전체 이해나 유전체 분석과 같은 대규모 데이터 처리에 최적화된 성능을 제공합니다. **Titans: 신경망 기반의 장기 기억 모듈** * 인간의 뇌처럼 단기 기억(어텐션 메커니즘)과 장기 기억 모듈을 분리하여 구성합니다. * 기존 RNN이 고정된 크기의 벡터나 행렬을 사용하는 것과 달리, Titans는 다층 퍼셉트론(MLP)을 장기 기억 모듈로 사용하여 훨씬 높은 표현력을 가집니다. * 단순히 데이터를 기록하는 수준을 넘어, 입력된 전체 정보의 흐름을 이해하고 합성하여 장기적으로 유지할 수 있는 능력을 갖췄습니다. **놀라움 지표(Surprise Metric)를 활용한 실시간 학습** * 모델은 새로운 입력값과 현재 기억 사이의 차이를 계산하는 '놀라움 지표'를 통해 어떤 정보를 저장할지 능동적으로 결정합니다. * 예상 가능한 정보(낮은 놀라움)는 생략하고, 기존 패턴을 깨는 이례적이거나 중요한 정보(높은 놀라움)를 감지했을 때 내부 오차 신호(그래디언트)를 발생시켜 이를 장기 기억에 우선적으로 반영합니다. * '모멘텀(Momentum)' 기술을 통해 개별 토큰뿐만 아니라 문맥의 흐름을 파악하며, '적응형 가중치 감쇠(Adaptive weight decay)'를 통해 불필요해진 오래된 정보를 삭제하여 메모리 용량을 효율적으로 관리합니다. **MIRAS: 시퀀스 모델링의 통합 이론적 프레임워크** * MIRAS는 트랜스포머부터 최신 선형 RNN까지 모든 시퀀스 모델을 '연상 기억(associative memory)' 모듈로 간주하는 통합된 관점을 제시합니다. * 새로운 정보와 기존 기억을 결합할 때 핵심 개념을 잊지 않도록 설계하는 이론적 청사진 역할을 수행합니다. * 메모리 아키텍처, 어텐션 편향 등 네 가지 핵심 설계 선택지를 통해 다양한 모델 아키텍처를 일반화하고 성능을 최적화할 수 있는 기반을 제공합니다. 이러한 기술적 진보는 AI가 정적인 지식에 머물지 않고 데이터가 유입되는 즉시 학습하고 적응하는 역동적인 시스템으로 진화하고 있음을 보여줍니다. 대규모 컨텍스트 처리가 필요한 연구자나 개발자들에게 Titans와 MIRAS는 연산 효율성과 긴 문맥 유지라는 두 마리 토끼를 잡을 수 있는 실질적인 아키텍처 표준이 될 것으로 기대됩니다.