ReasoningBank: Enabling agents to learn from experience (새 탭에서 열림)
ReasoningBank는 에이전트가 배포된 이후에도 성공과 실패의 경험으로부터 일반화된 추론 전략을 추출하여 스스로 진화할 수 있게 돕는 새로운 메모리 프레임워크입니다. 기존 방식이 단순히 실행 기록을 저장하거나 성공 사례만 수집했던 것과 달리, ReasoningBank는 고차원의 전략적 통찰을 구조화하여 저장함으로써 에이전트의 성공률과 작업 효율성을 동시에 개선합니다. 이는 에이전트가 반복적인 실수를 방지하고 복잡한 환경에서 지속적으로 학습하는 '지속적 학습자(Continuous Learner)'로 거듭나게 하는 핵심 기술입니다. **전략적 통찰의 구조화와 추출** - ReasoningBank는 단순히 과거의 행동을 기록하는 것이 아니라, 제목(Title), 설명(Description), 내용(Content)으로 구성된 고차원의 구조화된 메모리 항목을 생성합니다. - '검색-추출-통합'의 연속적인 폐쇄 루프(Closed-loop)를 통해 작동하며, LLM-as-a-judge 기능을 활용해 에이전트의 궤적을 스스로 평가하고 통찰을 도출합니다. - 특히 실패한 경험에서 '반사실적 신호(Counterfactual signals)'를 분석하여, "무한 스크롤 함정에 빠지지 않기 위해 현재 페이지 식별자를 먼저 확인하라"와 같은 예방적 가드레일을 구축하는 데 탁월합니다. **메모리 기반 테스트 시간 확장(MaTTS)** - 추론 시점의 컴퓨팅 자원 확장(Test-time scaling)을 메모리와 결합하여 학습 신호를 극대화하는 MaTTS 기법을 도입했습니다. - **병렬 확장(Parallel scaling):** 동일한 쿼리에 대해 여러 경로를 생성하고 이를 상호 비교함으로써 더 견고한 전략을 합성하고 고품질의 메모리를 생성합니다. - **순차 확장(Sequential scaling):** 단일 작업 내에서 추론을 반복적으로 정제하며, 시행착오 과정에서 발생하는 중간 단계의 통찰을 메모리에 기록합니다. - 이 과정에서 고품질 메모리는 확산된 탐색을 유망한 전략으로 안내하고, 확장된 상호작용은 다시 메모리를 풍부하게 만드는 시너지 효과를 냅니다. **성능 향상 및 전략적 성숙도의 발현** - WebArena 및 SWE-Bench-Verified 벤치마크 평가 결과, 메모리가 없는 기본 모델 대비 성공률이 최대 8.3% 향상되었으며, 작업당 실행 단계는 평균 3단계 가량 단축되었습니다. - 에이전트가 축적된 지식을 바탕으로 점진적으로 발전하는 '전략적 성숙도'가 관찰되었습니다. 초기의 단순한 절차적 체크리스트가 시간이 흐름에 따라 복잡한 조건부 논리 구조를 가진 고급 메모리로 진화했습니다. - 실험 결과 ReasoningBank는 자기 평가 과정의 일부 노이즈에도 강건하게 작동하며, 확장(Scaling)과 결합했을 때 효율성이 더욱 극대화됨이 증명되었습니다. 단순히 성공한 워크플로우를 저장하는 것을 넘어, 실패로부터 배우고 추론 과정을 일반화하는 ReasoningBank의 접근법은 자율형 에이전트의 실용성을 높이는 강력한 도구입니다. 복잡한 소프트웨어 엔지니어링이나 동적인 웹 환경에서 작동하는 에이전트를 설계한다면, 실행 시간의 연산량을 메모리 업데이트로 전환하는 MaTTS 방식의 도입을 적극 고려해 볼 수 있습니다.