llm

118 개의 포스트

ReasoningBank: Enabling agents to learn from experience (새 탭에서 열림)

ReasoningBank는 에이전트가 배포된 이후에도 성공과 실패의 경험으로부터 일반화된 추론 전략을 추출하여 스스로 진화할 수 있게 돕는 새로운 메모리 프레임워크입니다. 기존 방식이 단순히 실행 기록을 저장하거나 성공 사례만 수집했던 것과 달리, ReasoningBank는 고차원의 전략적 통찰을 구조화하여 저장함으로써 에이전트의 성공률과 작업 효율성을 동시에 개선합니다. 이는 에이전트가 반복적인 실수를 방지하고 복잡한 환경에서 지속적으로 학습하는 '지속적 학습자(Continuous Learner)'로 거듭나게 하는 핵심 기술입니다. **전략적 통찰의 구조화와 추출** - ReasoningBank는 단순히 과거의 행동을 기록하는 것이 아니라, 제목(Title), 설명(Description), 내용(Content)으로 구성된 고차원의 구조화된 메모리 항목을 생성합니다. - '검색-추출-통합'의 연속적인 폐쇄 루프(Closed-loop)를 통해 작동하며, LLM-as-a-judge 기능을 활용해 에이전트의 궤적을 스스로 평가하고 통찰을 도출합니다. - 특히 실패한 경험에서 '반사실적 신호(Counterfactual signals)'를 분석하여, "무한 스크롤 함정에 빠지지 않기 위해 현재 페이지 식별자를 먼저 확인하라"와 같은 예방적 가드레일을 구축하는 데 탁월합니다. **메모리 기반 테스트 시간 확장(MaTTS)** - 추론 시점의 컴퓨팅 자원 확장(Test-time scaling)을 메모리와 결합하여 학습 신호를 극대화하는 MaTTS 기법을 도입했습니다. - **병렬 확장(Parallel scaling):** 동일한 쿼리에 대해 여러 경로를 생성하고 이를 상호 비교함으로써 더 견고한 전략을 합성하고 고품질의 메모리를 생성합니다. - **순차 확장(Sequential scaling):** 단일 작업 내에서 추론을 반복적으로 정제하며, 시행착오 과정에서 발생하는 중간 단계의 통찰을 메모리에 기록합니다. - 이 과정에서 고품질 메모리는 확산된 탐색을 유망한 전략으로 안내하고, 확장된 상호작용은 다시 메모리를 풍부하게 만드는 시너지 효과를 냅니다. **성능 향상 및 전략적 성숙도의 발현** - WebArena 및 SWE-Bench-Verified 벤치마크 평가 결과, 메모리가 없는 기본 모델 대비 성공률이 최대 8.3% 향상되었으며, 작업당 실행 단계는 평균 3단계 가량 단축되었습니다. - 에이전트가 축적된 지식을 바탕으로 점진적으로 발전하는 '전략적 성숙도'가 관찰되었습니다. 초기의 단순한 절차적 체크리스트가 시간이 흐름에 따라 복잡한 조건부 논리 구조를 가진 고급 메모리로 진화했습니다. - 실험 결과 ReasoningBank는 자기 평가 과정의 일부 노이즈에도 강건하게 작동하며, 확장(Scaling)과 결합했을 때 효율성이 더욱 극대화됨이 증명되었습니다. 단순히 성공한 워크플로우를 저장하는 것을 넘어, 실패로부터 배우고 추론 과정을 일반화하는 ReasoningBank의 접근법은 자율형 에이전트의 실용성을 높이는 강력한 도구입니다. 복잡한 소프트웨어 엔지니어링이나 동적인 웹 환경에서 작동하는 에이전트를 설계한다면, 실행 시간의 연산량을 메모리 업데이트로 전환하는 MaTTS 방식의 도입을 적극 고려해 볼 수 있습니다.

대규모 AI 코드 리뷰 오케스트레이션 (새 탭에서 열림)

Cloudflare는 기존 AI 코드 리뷰 도구의 유연성 부족과 단순 요약 방식의 한계를 극복하기 위해 오픈소스 에이전트인 OpenCode 기반의 CI 네이티브 오케스트레이션 시스템을 구축했습니다. 이 시스템은 보안, 성능 등 각 분야에 특화된 다수의 전문 에이전트를 코디네이터가 관리하여 노이즈를 줄이고 정확도 높은 리뷰 결과를 제공합니다. 현재 수만 개의 머지 리퀘스트를 처리하며 실제 버그와 보안 취약점을 효과적으로 차단하는 등 엔지니어링 생산성을 획기적으로 개선하고 있습니다. **기존 접근 방식의 한계와 다중 에이전트 전략** * 단순히 Git Diff를 LLM에 입력하는 방식은 환각(Hallucination) 현상과 무의미한 수정 제안 등 노이즈가 많아 실질적인 코드 품질 향상에 한계가 있었음. * Cloudflare는 하나의 거대한 모델 대신 보안, 성능, 코드 품질, 문서화, 릴리스 관리, 내부 규정 준수 등 최대 7개의 전문 에이전트를 동시에 실행하는 구조를 선택함. * '코디네이터 에이전트'가 개별 에이전트의 발견 사항을 취합하여 중복을 제거하고, 문제의 실제 심각도를 판단한 뒤 하나의 구조화된 리뷰 코멘트로 통합함. **플러그인 기반의 유연한 아키텍처** * 다양한 버전 관리 시스템(VCS)과 AI 프로바이더를 지원하기 위해 `ReviewPlugin` 인터페이스 기반의 컴포저블 아키텍처를 채택함. * 리뷰 실행 주기는 세 단계로 나먐: 병렬로 실행되는 `Bootstrap`(비동기 준비), 순차적으로 실행되며 실패 시 중단되는 `Configure`(필수 설정), 그리고 원격 설정 로드 등을 처리하는 `postConfigure` 단계임. * `ConfigureContext` API를 통해 각 플러그인은 독립적으로 에이전트 등록, 프롬프트 주입, 환경 변수 설정을 수행하며, 최종적으로 `opencode.json` 설정 파일로 병합됨. * 이러한 격리 구조 덕분에 GitLab 플러그인이 AI Gateway 설정을 알 필요가 없는 등 컴포넌트 간 결합도를 최소화함. **OpenCode와 Bun을 활용한 기술적 구현** * OpenCode는 오픈소스이며 서버 중심 구조를 가지고 있어 프로그래밍 방식으로 세션을 생성하고 SDK를 통해 결과를 수집하기에 적합함. * 대규모 머지 리퀘스트 처리 시 발생하는 Linux 커널의 `ARG_MAX` 제한(E2BIG 에러)을 해결하기 위해, Bun의 `stdin` 스트림을 통해 대용량 프롬프트를 전달함. * 오케스트레이터는 OpenCode를 자식 프로세스(`Bun.spawn`)로 실행하며, 모든 출력은 JSONL 형식의 `stdout` 이벤트를 통해 실시간으로 모니터링 및 수집됨. Cloudflare의 사례는 단순한 AI 도입을 넘어, 대규모 조직의 복잡한 표준과 요구사항을 충족하기 위해 다중 에이전트와 플러그인 시스템이 왜 필요한지 잘 보여줍니다. 특히 CI/CD 파이프라인의 핵심 경로에 AI를 배치할 때 발생하는 인자 크기 제한이나 도구 간 결합도 문제를 해결한 아키텍처는 대규모 엔지니어링 팀에 실질적인 가이드라인이 될 것입니다.

Unweight: 품질 저하 없이 LLM을 22% 압축한 방법 (새 탭에서 열림)

Cloudflare는 LLM의 가중치를 15~22% 압축하면서도 출력 결과의 정확도를 비트 단위로 완벽하게 보존하는 무손실 압축 시스템인 'Unweight'를 공개했습니다. 이 시스템은 NVIDIA H100 GPU의 연산 능력에 비해 현저히 느린 메모리 대역폭 병목 현상을 해결하기 위해 설계되었으며, 추론 시 가중치를 고속 온칩 메모리(Shared Memory)에서 직접 해제하여 처리 효율을 극대화합니다. 결과적으로 Llama-3.1-8B 모델 기준 약 3GB의 VRAM을 절약함으로써, 품질 저하 없이 더 적은 자원으로 더 빠른 추론 서비스를 제공할 수 있게 되었습니다. ### 메모리 대역폭 병목 현상과 무손실 압축의 필요성 * **컴퓨팅-메모리 불균형:** NVIDIA H100의 텐서 코어는 메모리가 데이터를 전달하는 속도보다 약 600배 빠르게 데이터를 처리할 수 있어, 추론 속도의 핵심은 '메모리 버스를 통과하는 데이터양'을 줄이는 데 있습니다. * **양자화의 한계:** 4비트나 8비트 정수로 변환하는 기존 양자화 방식은 손실 압축(Lossy)이므로 모델의 응답 품질을 예측할 수 없게 만듭니다. * **무손실 아키텍처:** Unweight는 비트 단위로 동일한(Bit-exact) 출력을 보장하면서도 가중치 크기를 줄여, 서비스 품질을 타협하지 않고 하드웨어 효율성만 높였습니다. ### BF16 지수(Exponent) 데이터의 중복성 활용 * **데이터 구조 분석:** BF16 가중치는 부호(1비트), 지수(8비트), 가수(7비트)로 구성되는데, 이 중 부호와 가수는 무작위성이 강해 압축이 어렵지만 지수 부분은 매우 높은 중복성을 보입니다. * **지수 분포의 편향성:** 일반적인 LLM 레이어에서 가장 빈번하게 등장하는 상위 16개의 지수 값이 전체 가중치의 99% 이상을 차지한다는 점에 착안했습니다. * **허프만 코딩(Huffman Coding) 적용:** 정보 이론에 따라 빈도가 높은 지수에는 짧은 코드를, 낮은 지수에는 긴 코드를 할당하는 허프만 코딩을 통해 지수 스트림에서 약 30%의 압축률을 달성했습니다. ### GPU 온칩 메모리를 활용한 효율적 압축 해제 * **SMEM 직접 해제:** 압축된 가중치를 느린 메인 메모리(HBM)로 다시 돌려보내지 않고, 텐서 코어 바로 옆의 빠른 공유 메모리(SMEM)에서 즉시 해제하여 연산에 투입함으로써 추가적인 지연 시간을 방지합니다. * **선택적 적용:** 모델 파라미터의 약 2/3를 차지하며 메모리 트래픽의 주원인인 MLP(Multi-Layer Perceptron) 가중치 행렬에 집중적으로 적용하여 효율을 높였습니다. * **행 단위(Row-based) 최적화:** 64개 가중치로 구성된 한 행에 희귀 지수가 하나라도 포함되면 해당 행 전체를 무압축 상태로 저장하여, 커널 실행 시 복잡한 분기 처리를 줄이고 처리 속도를 최적화했습니다. ### 실용적인 결론 및 권장사항 Unweight는 모델의 정확도를 1%도 포기할 수 없으면서 VRAM 부족 문제를 해결해야 하는 고성능 추론 환경에 최적화된 솔루션입니다. 특히 NVIDIA Hopper 아키텍처(H100 등)를 사용하는 환경에서 Llama-3.1-8B와 같은 모델을 운용할 때 약 3GB의 메모리 여유 공간을 확보할 수 있어, 더 큰 배치 사이즈를 운용하거나 더 많은 모델을 하나의 GPU에 올리는 데 유용합니다. Cloudflare는 이 기술의 확산을 위해 기술 논문과 함께 GPU 커널을 오픈소스로 공개하였습니다.

초거대 언어 모델 구동을 위한 기반 구축 (새 탭에서 열림)

Cloudflare의 Workers AI는 Kimi K2.5와 같은 초대형 언어 모델(LLM)을 효율적으로 구동하기 위해 소프트웨어와 하드웨어의 균형을 맞춘 최적화된 인프라를 구축하고 있습니다. 특히 에이전트 기반 서비스에서 발생하는 긴 컨텍스트와 반복되는 입력을 처리하기 위해 입력(Prefill)과 출력(Decode) 단계를 분리하고 캐싱 효율을 극대화하는 전략을 취했습니다. 이를 통해 기존 대비 추론 속도를 3배 향상시키고 지연 시간의 변동성을 대폭 줄이는 성과를 거두었습니다. ### Prefill과 Decode 단계의 분리 (PD Disaggregation) * LLM 추론의 두 단계인 'Prefill'(입력 토큰 처리, 연산 중심)과 'Decode'(출력 토큰 생성, 메모리 대역폭 중심)를 별도의 서버에서 독립적으로 수행하도록 아키텍처를 설계했습니다. * 단일 GPU에서 두 단계가 서로를 방해(Blocking)하며 자원 효율을 떨어뜨리는 문제를 해결하여 GPU 활용도를 극대화했습니다. * 토큰 인식 부하 분산(Token-aware load balancing) 기술을 적용해 각 서버의 처리량을 실시간으로 추정하고 부하를 균등하게 배분합니다. * 이 구조를 통해 첫 토큰 생성 시간(TTFT)의 편차를 줄이고, 토큰 당 생성 시간을 기존 100ms에서 20~30ms 수준으로 개선했습니다. ### 프롬프트 캐싱 및 세션 어피니티 (Prompt Caching) * 에이전트형 서비스의 특성상 시스템 프롬프트나 이전 대화 기록 등 반복되는 긴 입력이 많다는 점에 착안하여 프롬프트 캐싱을 최적화했습니다. * `x-session-affinity` 헤더를 도입하여 동일한 세션의 요청이 이전 입력 텐서가 계산된 리전으로 라우팅되도록 유도했습니다. * 이러한 세션 고정 라우팅을 통해 피크 시간대 입력 토큰 캐시 히트율을 60%에서 80%까지 끌어올렸으며, 전체적인 처리량을 크게 향상시켰습니다. * 사용자가 캐싱을 적극적으로 활용하도록 캐시된 토큰에 대해 할인된 가격을 제공하는 경제적 유인책을 병행합니다. ### KV 캐시 최적화 및 Mooncake 엔진 활용 * 초대형 모델은 여러 GPU에 걸쳐 실행되므로, GPU 간에 KV 캐시(입력 텐서 저장 공간)를 효율적으로 공유하는 것이 필수적입니다. * Moonshot AI의 'Mooncake' 전송 엔진을 활용해 NVLink 및 NVMe over Fabric과 같은 RDMA 프로토콜 기반의 직접 메모리 전송을 구현, CPU 개입 없이 데이터를 빠르게 전달합니다. * LMCache 및 SGLang HiCache를 사용하여 클러스터 내 모든 노드가 캐시를 공유하므로, 특정 노드에 종속되지 않고 캐시를 재사용할 수 있습니다. * 캐시 저장소를 GPU VRAM에서 NVMe 스토리지로 확장하여 세션 유지 시간을 늘리고 더 많은 트래픽을 효율적으로 수용합니다. ### 결론 및 제언 Cloudflare Workers AI에서 대규모 모델을 사용하는 개발자라면 `x-session-affinity` 헤더를 반드시 사용하여 프롬프트 캐싱 혜택을 받는 것이 권장됩니다. 이는 단순한 속도 향상을 넘어 토큰 비용 절감으로 이어지며, 특히 긴 대화 맥락을 유지해야 하는 AI 에이전트 서비스에서 성능 차이를 만드는 핵심 요소가 됩니다.

에이전트 위크에 오신 것을 환영합니다 (새 탭에서 열림)

AI 에이전트의 시대가 도래함에 따라 기존의 컨테이너 기반 클라우드 인프라는 확장성과 비용 측면에서 한계에 직면하고 있습니다. 클라우드플레어는 일대다(1:N) 방식의 전통적인 아키텍처 대신, 개별 에이전트마다 독립적인 실행 환경을 즉시 제공할 수 있는 격리(Isolate) 기반의 서버리스 기술이 미래 인터넷의 핵심이 될 것이라고 주장합니다. 에이전트의 대중화를 위해서는 수 밀리초 안에 실행되고 자원 소모가 적은 가벼운 컴퓨팅 환경으로의 전환이 필수적이라는 결론입니다. **기존 클라우드 모델과 에이전트의 충돌** * 스마트폰 시대를 거치며 발전한 현재의 클라우드는 소수의 마이크로서비스 인스턴스가 다수의 사용자를 처리하는 '일대다(One-to-Many)' 모델을 기본으로 합니다. * 반면 AI 에이전트는 한 명의 사용자가 하나의 특정 작업을 수행하기 위해 고유한 실행 환경을 점유하는 '일대일(One-to-One)' 모델을 요구합니다. * 기존 애플리케이션이 정해진 메뉴를 제공하는 '레스토랑'이라면, 에이전트는 작업마다 다른 도구와 재료를 사용하는 '개인 요리사'와 같아서 기존의 컨테이너 방식으로는 이를 효율적으로 수용하기 어렵습니다. **에이전트 대중화를 가로막는 확장성 산식** * 수억 명의 지식 노동자가 동시에 에이전트를 사용할 경우, 기존 컨테이너 방식으로는 수백만 대의 서버 CPU가 필요하며 이는 현재 가용 가능한 컴퓨팅 용량을 수십 배 초과합니다. * 컨테이너는 실행 시 수백 메가바이트의 메모리를 소모하고 시작 속도가 느려, 에이전트 한 대당 운영 비용이 매우 높게 형성됩니다. * 이러한 경제적 한계 때문에 현재 에이전트 도구들은 높은 비용을 정당화할 수 있는 코딩 도구 등 일부 영역에만 국한되어 있습니다. **V8 Isolate 기술을 통한 인프라 혁신** * Cloudflare Workers의 기반인 V8 Isolate 기술은 컨테이너 대비 시작 속도는 약 100배 빠르고(수 밀리초), 메모리 사용량은 100배가량 효율적입니다. * 'Dynamic Workers' 환경을 통해 요청이 들어올 때마다 실시간으로 에이전트 실행 환경을 할당하고 작업 종료 즉시 폐기함으로써 하드웨어 밀도를 극대화할 수 있습니다. * Isolate는 에이전트가 필요로 하는 최소한의 자원만 할당하므로, 전 세계 수십억 명의 사용자를 위한 에이전트 서비스 운영에 필요한 경제적 타당성을 제공합니다. **전환기의 과제와 하이브리드 전략** * 현재는 에이전트가 사람이 사용하던 웹사이트를 탐색하기 위해 헤드리스 브라우저를 사용하는 '말 없는 마차(Horseless Carriage)' 단계에 머물러 있습니다. * 향후에는 에이전트가 직접 서비스를 호출하는 MCP(Model Context Protocol) 표준과 에이전트 전용 인증 방식이 확산될 것으로 보입니다. * 클라우드플레어는 파일 시스템과 바이너리 실행이 필수적인 코딩 에이전트를 위한 '컨테이너 기반 샌드박스'를 정식 출시함과 동시에, 가벼운 작업을 위한 Isolate 기술을 병행 지원하여 구시대와 신시대의 인프라를 연결할 계획입니다. 에이전트 중심의 서비스를 구축하려는 기업은 컨테이너 중심의 무거운 기존 설계에서 벗어나, 실행 밀도가 높고 비용 효율적인 Isolate 기반의 서버리스 아키텍처를 도입하여 대규모 사용자 환경에 대비할 것을 추천합니다.

ConvApparel: 사용자 시뮬레이터의 현실성 격차 측정 및 해소 (새 탭에서 열림)

ConvApparel은 LLM 기반 사용자 시뮬레이터와 실제 인간 사이의 '리얼리즘 격차(Realism Gap)'를 정량화하고 이를 좁히기 위해 설계된 새로운 데이터셋이자 평가 프레임워크입니다. 이 연구는 시뮬레이터가 단순히 인간의 말투를 흉내 내는 것을 넘어, 시스템의 오류나 불친절한 응답에 대해 인간처럼 좌절하거나 반응하는지 검증하는 데 중점을 둡니다. 이를 통해 실제 환경에서도 견고하게 작동하는 대화형 AI 에이전트를 학습시키고 테스트할 수 있는 신뢰할 수 있는 기반을 제공합니다. ### 리얼리즘 격차와 시뮬레이터의 한계 현재 대화형 AI 학습에 사용되는 LLM 기반 시뮬레이터는 실제 사용자 행동과 시스템적으로 괴리된 모습을 보입니다. * **비현실적인 특성:** 시뮬레이터는 과도하게 장황하거나, 일관된 페르소나가 부족하며, 실제 인간이라면 느낄 법한 좌절감을 표현하지 못하고 비정상적인 인내심을 보이는 경향이 있습니다. * **과적합의 위험:** 특정 데이터로만 학습된 시뮬레이터는 훈련 시 보지 못했던 새로운 에이전트 정책을 만났을 때 적절히 반응하지 못하고 훈련 패턴만 맹목적으로 반복하는 한계가 있습니다. * **훈련 결과의 불일치:** 현실성 없는 시뮬레이터로 학습된 에이전트는 실제 사용자에게 배포되었을 때 예상치 못한 상황에서 실패할 가능성이 높습니다. ### ConvApparel 데이터셋과 이중 에이전트 프로토콜 의류 쇼핑 도메인(CRS)을 배경으로 구축된 ConvApparel은 인간의 다양한 감정 스펙트럼을 포착하기 위해 독특한 실험 설계를 채택했습니다. * **이중 에이전트 구조:** 사용자를 무작위로 '좋은(Good) 에이전트'와 의도적으로 불친절하고 혼란을 주는 '나쁜(Bad) 에이전트'에 배정하여 만족부터 분노까지의 폭넓은 반응을 수집했습니다. * **대규모 데이터:** 총 4,000건 이상의 인간-AI 대화와 약 15,000회의 턴(turn)으로 구성되어 통계적 유의성을 확보했습니다. * **세밀한 주석(Annotation):** 각 대화의 턴마다 사용자가 느낀 만족도, 좌절감, 구매 가능성 등 주관적인 내부 상태를 직접 보고하게 하여 시뮬레이터 검증을 위한 지표(Ground Truth)로 활용했습니다. ### 시뮬레이터 신뢰도 측정을 위한 3대 지표 연구팀은 시뮬레이터가 실제 인간과 얼마나 유사한지 다각도로 평가하기 위해 세 가지 핵심 지표를 제안합니다. * **인구 통계적 통계 정렬(Population-level Alignment):** 대화의 길이, 턴당 단어 수, 거절이나 수락과 같은 대화 행위(Dialog Acts)의 분포가 실제 인간 군집의 통계와 일치하는지 확인합니다. * **인간 유사성 점수(Human-likeness Score):** 실제 대화와 합성 대화를 구분하도록 학습된 판별기(Discriminator)를 통해 시뮬레이션된 대화가 얼마나 인간적인 스타일을 갖췄는지 정량화합니다. * **인과적/반사실적 검증(Counterfactual Validation):** '좋은' 에이전트와의 대화만 학습한 시뮬레이터가 생소하고 불친절한 '나쁜' 에이전트를 만났을 때, 실제 인간처럼 만족도가 급감하고 좌절감이 상승하는지 테스트하여 적응력을 평가합니다. ### 결론 및 제언 성공적인 대화형 AI 개발을 위해서는 시뮬레이터가 단순히 친절한 조수 역할에 머물러서는 안 되며, 불완전하고 때로는 쉽게 짜증을 내는 인간의 본성을 정확히 반영해야 합니다. ConvApparel 프레임워크는 프롬프트 기반, 인메모리 학습(ICL), 지도 미세 조정(SFT) 등 다양한 방식으로 구축된 시뮬레이터의 성능을 엄격하게 평가할 수 있는 도구를 제공합니다. 향후 대화형 시스템 개발자들은 이러한 다각적 검증 지표를 활용함으로써, 실험실 환경을 넘어 실제 복잡한 사용자 환경에서도 안정적으로 작동하는 에이전트를 구축할 수 있을 것입니다.

학술 워크플로우 개선: 더 나은 그림과 피어 리뷰를 위한 두 가지 AI 에이전트 소개 (새 탭에서 열림)

구글 클라우드 연구진은 학술 연구의 효율성을 극대화하기 위해 시각화 도구인 **PaperVizAgent**와 논문 리뷰 자동화 시스템인 **ScholarPeer**라는 두 가지 AI 에이전트 프레임워크를 공개했습니다. 이 시스템들은 연구자가 단순 반복적인 작업이나 행정적 부담에서 벗어나 혁신에 집중할 수 있도록 돕는 것을 목표로 하며, 실험 결과 전문가 수준의 도식 생성과 엄격한 논문 심사 능력을 입증했습니다. 이는 AI가 단순한 보조 도구를 넘어 학술 생태계의 능동적인 참여자로 진화하고 있음을 시사합니다. ### PaperVizAgent: 출판 가능한 수준의 학술 도식 생성 PaperVizAgent는 논문 텍스트를 기반으로 전문가급의 방법론 도식이나 통계 그래프를 생성하는 자율 프레임워크입니다. * **다중 에이전트 협업:** 검색(Retriever), 계획(Planner), 스타일 지정(Stylist), 시각화(Visualizer), 비평(Critic)을 담당하는 5개의 전문 에이전트가 팀을 이루어 작동합니다. * **반복적 정교화 프로세스:** 비평 에이전트가 생성된 결과물과 원문 사이의 불일치를 찾아내면, 시각화 에이전트가 이를 피드백으로 받아 수정을 반복하며 정확도를 높입니다. * **주요 입력 요소:** 연구의 기술적 세부 사항이 담긴 '소스 컨텍스트'와 시각적으로 전달하려는 의도를 담은 '도식 캡션'만으로 고품질 이미지를 생성합니다. * **성능 입증:** 신뢰성, 간결성, 가독성, 심미성 평가에서 기존의 GPT-Image-1.5나 Paper2Any를 능가했으며, 특히 간결성과 심미성 측면에서 인간 기준 점수(50점)를 상회하는 60.2점을 기록했습니다. ### ScholarPeer: 시니어 리뷰어를 모사하는 논문 심사 에이전트 ScholarPeer는 숙련된 연구자의 워크플로우를 따라 논문의 기술적 타당성을 검증하고 심사평을 작성하는 검색 기반 멀티 에이전트 시스템입니다. * **이중 스트림 정보 처리:** 문맥 습득과 능동적 검증이라는 두 가지 경로를 통해 단순히 텍스트를 생성하는 것이 아니라, 실제 문헌에 근거한 비판을 수행합니다. * **특화된 에이전트 구성:** 실시간 웹 검색으로 도메인 지식을 보강하는 '히스토리언 에이전트'와 저자가 놓친 데이터셋이나 비교 대상을 찾는 '스카우트 에이전트'가 포함됩니다. * **기술적 검증 엔진:** 다각도 Q&A 엔진이 논문의 기술적 주장을 엄격하게 검증하여, 강점과 약점 및 저자 질문이 포함된 전문적인 리뷰 보고서를 생성합니다. * **신뢰성 확보:** 기존 자동 리뷰 시스템 대비 높은 승률(Win-rate)을 보였으며, AI 특유의 환각 현상을 줄이고 실제 인간 리뷰어와 유사한 비판적이고 구체적인 피드백을 제공합니다. ### 학술 연구의 미래와 제언 이러한 AI 에이전트들의 등장은 기하급수적으로 증가하는 논문 제출량으로 인한 리뷰어들의 피로감을 해소하고, 시각화 역량이 부족한 연구자들에게 강력한 지원군이 될 것입니다. 연구자들은 이러한 도구를 활용해 연구의 전달력을 높이는 동시에, 제출 전 셀프 리뷰 단계에서 ScholarPeer를 활용해 논문의 논리적 허점을 미리 보완함으로써 승인 가능성을 높이는 전략을 취할 수 있습니다. 결과적으로 AI 에이전트는 학술 워크플로우 전반의 질적 수준을 상향 평준화하는 데 기여할 것으로 기대됩니다.

LLM의 행동 성향 정렬 평가 (새 탭에서 열림)

구글 리서치는 대규모 언어 모델(LLM)의 행동 성향을 정밀하게 측정하기 위해 심리학적 방법론인 상황 판단 테스트(SJT)를 도입한 새로운 평가 프레임워크를 제시했습니다. 연구 결과, 최신 대형 모델들은 인간의 의견이 만장일치로 일치하는 상황에서는 높은 정렬 수준을 보였으나, 의견이 갈리는 복잡한 사회적 상황에서는 인간의 다양한 관점을 반영하지 못하고 특정 답변에 과하게 확신하는 경향을 보였습니다. 이는 LLM이 인간 사회의 미묘한 역학을 더욱 정교하게 탐색하기 위해 행동 정렬 방식의 개선이 필요함을 시사합니다. **심리학적 기반의 상황 판단 테스트(SJT) 설계** * 단순한 자기보고식 설문(예: "나는 의견을 빨리 표현한다")의 한계를 극복하기 위해, 실제 사용자-어시스턴트 상호작용 상황을 가정한 시나리오 기반의 SJT를 구축했습니다. * IRI(공감), ERQ(정서 조절) 등 검증된 심리학적 척도를 바탕으로 전문적 침착함, 갈등 해결, 일상적 의사결정 등 다양한 사회적 맥락을 반영하는 시나리오를 생성했습니다. * 모델의 자연어 응답을 'LLM-as-a-judge' 방식을 통해 두 가지 대조되는 행동 선택지 중 하나로 매핑하고, 이를 550명의 인간 주석자가 내놓은 반응 분포와 비교하여 정렬도를 측정했습니다. **모델 규모에 따른 행동 방향성 일치도** * 25개의 LLM을 분석한 결과, 25B(250억 개) 미만의 소형 모델은 인간의 다수 의견과 일치하는 선택을 하는 '방향성 일치도'가 현저히 낮았으며, 때로는 무작위 수준의 선택을 보였습니다. * 120B 이상의 대형 모델과 최신 프런티어 모델들은 인간의 합의가 만장일치(10/10)인 상황에서 거의 완벽한 일치도를 보였으나, 합의율이 80~90%로 낮아지면 모델의 성능도 80%대 초중반에서 정체되었습니다. * 구체적인 일탈 사례로, 모델은 인간이 '침착함'을 권장하는 전문적인 상황에서 '감정적 개방성'을 지나치게 독려하거나, 갈등 상황에서 자기 주장을 하기보다 과도하게 화합만을 우선시하는 경향을 보였습니다. **분포적 정렬의 한계와 과잉 확신 문제** * 인간 사회의 다양한 관점을 반영해야 한다는 '분포적 다원주의' 관점에서 볼 때, 인간의 의견이 갈리는 상황에서는 모델의 응답 확률 분포도 낮아져야(즉, 확신이 줄어들어야) 합니다. * 그러나 테스트된 25개 모델 모두 인간의 합의 수준과 상관없이 특정 선택지에 대해 체계적인 '과잉 확신(Overconfidence)'을 보이는 것으로 나타났습니다. * 인간들 사이에서 선호도가 팽팽하게 나뉘는 시나리오에서도 모델은 확률 분포를 고르게 분산시키지 못하고, 특정 행동이 정답인 것처럼 높은 확신을 가지고 응답하는 한계를 드러냈습니다. 이 연구는 LLM이 인간의 행동 양식을 단순히 흉내 내는 것을 넘어, 사회적 맥락에 따라 유연하게 대응하고 인간 의견의 다양성을 존중하도록 설계되어야 함을 강조합니다. 향후 모델 개발 시 단순한 선호도 최적화를 넘어, 인간의 미묘한 사회적 역동성과 다원적 가치를 반영할 수 있는 정렬 기술이 중요하게 작용할 것입니다.

Cloudflare 클라이언트 측 보안: 더 스마트해진 탐지, 이제 누구나 이용 가능 (새 탭에서 열림)

Cloudflare는 클라이언트 사이드 보안(Client-Side Security) 기술을 모든 사용자에게 개방하고, 고도화된 스키밍 공격을 탐지하기 위해 대규모 언어 모델(LLM)을 결합한 새로운 AI 탐지 시스템을 도입했습니다. 이번 업데이트를 통해 셀프 서비스 고객도 'Advanced' 기능을 사용할 수 있게 되었으며, 특히 오탐지(False Positive)를 획기적으로 줄이면서도 복잡한 자바스크립트 공격에 대응할 수 있는 다중 방어 체계를 구축한 것이 핵심입니다. **클라이언트 사이드 보안의 작동 원리** * **브라우저 보고 기반 탐지:** 별도의 스캐너나 애플리케이션 수정 없이, 브라우저의 콘텐츠 보안 정책(CSP) 보고 기능을 활용해 신호를 수집하므로 지연 시간이 발생하지 않습니다. * **폭넓은 접근성:** 모든 무료 플랜 사용자에게 도메인 기반 위협 인텔리전스를 제공하며, 유료 셀프 서비스 고객은 코드 변경 모니터링 및 능동적 차단 규칙이 포함된 Advanced 기능을 즉시 사용할 수 있습니다. * **컴플라이언스 지원:** 지속적인 코드 변경 탐지 기능을 통해 PCI DSS v4(요구사항 11.6.1)와 같은 최신 보안 규정을 준수할 수 있도록 돕습니다. **추상 구문 트리(AST)와 의도 분석** * **데이터 규모와 변동성 관리:** 기업당 평균 2,200개의 고유 스크립트가 존재하며 그중 33%가 매달 업데이트되는 환경에서, 단순한 수동 승인이 아닌 스크립트의 '의도'를 파악하는 방식에 집중합니다. * **구조적 패턴 분석:** 자바스크립트 코드를 AST로 분해하여 논리적 구조를 분석함으로써, 변수명 변경이나 코드 난독화 여부와 관계없이 공격자의 패턴을 식별합니다. **GNN과 LLM을 결합한 하이브리드 탐지 아키텍처** * **GNN 기반 1차 선별:** 그래프 신경망(GNN)이 AST의 구조적 특성을 학습하여 제로데이 위협을 높은 재현율(Recall)로 빠르게 걸러냅니다. * **LLM 기반 2차 검증:** 0.3% 미만의 낮은 오탐율조차 일일 35억 건의 데이터 규모에서는 막대한 노이즈가 되므로, Cloudflare Workers AI에서 실행되는 LLM이 2차 판단을 내립니다. * **계층적 분류 알고리즘:** 모든 스크립트를 LLM으로 분석하는 대신, GNN이 의심스럽다고 판단한 항목만 LLM에 전달하는 '계단식 구조'를 통해 성능 최적화와 정확도 향상을 동시에 달성했습니다. **오탐지 해결을 위한 시맨틱 이해** * **복잡한 코드 구분:** 봇 차단 솔루션이나 광고 트래킹 스크립트처럼 난독화되어 있지만 정상적인 코드를 LLM의 심층적인 문맥 이해력을 통해 공격 코드로 오인하지 않도록 분류합니다. * **보안 팀의 피로도 감소:** 정확도가 낮은 경보를 획기적으로 줄임으로써, 보안 담당자가 실제 위협적인 침해 사고에만 집중할 수 있는 환경을 제공합니다. 웹사이트를 운영하는 조직은 Cloudflare의 새로운 Advanced 기능을 활용해 PCI DSS v4 준수 요건을 충족하는 동시에, 복잡해지는 공급망 공격(Supply Chain Attack)으로부터 사용자 데이터를 보호할 수 있습니다. 특히 난독화된 서드파티 스크립트가 많은 환경이라면, LLM 기반의 고도화된 탐지 엔진을 적용해 보안과 운영 효율성을 모두 확보할 것을 권장합니다.

AI 챗이란 무엇인가? 정의, 작동 원리 및 주요 이점 (새 탭에서 열림)

AI 채팅은 정해진 시나리오를 따르는 기존 챗봇과 달리 거대언어모델(LLM)을 통해 실시간으로 답변을 생성하고 대화의 맥락을 이해하는 기술입니다. 사용자는 자연어 프롬프트를 통해 복잡한 요청을 수행하고 대화의 흐름에 따라 결과물을 지속적으로 개선할 수 있는 유연성을 얻게 되었습니다. 결국 AI 채팅은 단순한 질의응답 도구를 넘어 창의적 협업과 효율적인 문제 해결을 돕는 강력한 지능형 파트너로 진화하고 있습니다. ### AI 채팅의 핵심 작동 원리와 LLM * **거대언어모델(LLM) 기반 학습**: 수조 개의 텍스트 데이터를 통해 언어의 패턴을 학습하며, 단순히 정답을 암기하는 것이 아니라 단어와 개념 간의 관계를 파악해 본 적 없는 질문에도 논리적인 답변을 구성합니다. * **자연어 처리(NLP)를 통한 의도 해석**: 머신러닝 기반의 NLP를 활용해 사용자의 단순 키워드뿐만 아니라 어조, 의도, 맥락을 분석하여 비정형적인 요청도 정확하게 이해합니다. * **실시간 확률적 단어 생성**: 저장된 답변을 불러오는 방식이 아니라, 이전 단어들을 바탕으로 다음에 올 가장 확률 높은 단어를 실시간으로 예측하며 동적으로 문장을 만들어냅니다. * **대화 맥락 유지와 피드백**: 이전 대화 내용을 기억하여 "그 내용을 요약해줘"와 같은 지시어의 대상을 파악하며, 사용자의 추가 요청이나 수정 사항을 즉각적으로 반영합니다. ### 기존 챗봇과 AI 채팅의 차이점 * **규칙 기반 vs 생성 기반**: 기존 챗봇이 정해진 의사결정 트리나 스크립트에 의존해 제한된 답변만 하는 반면, AI 채팅은 학습된 모델을 통해 매번 새로운 답변을 생성합니다. * **작업의 범위**: 기존 방식은 예약이나 FAQ 응답 등 좁고 반복적인 업무에 특화되어 있지만, AI 채팅은 브레인스토밍, 코딩 보조, 복잡한 개념 설명 등 개방형 작업에 적합합니다. * **상호작용의 유연성**: 사용자가 대화 도중 주제를 바꾸거나 세부 사항을 수정해도 AI 채팅은 그 흐름을 따라가며 유연하게 대응할 수 있습니다. ### 주요 활용 사례 및 생산성 향상 * **글쓰기 및 편집**: 이메일 초안 작성부터 보고서의 톤 조절, 긴 문서 요약까지 텍스트와 관련된 다양한 작업을 수행하며 실시간 수정을 통해 완성도를 높입니다. * **아이디어 브레인스토밍**: 새로운 기획안의 개요를 잡거나 특정 주제에 대한 다양한 관점을 제시받는 등 창의적 사고를 돕는 도구로 활용됩니다. * **코드 생성 및 학습**: 프로그래밍 관련 질문에 답하거나 코드 오류를 수정하고, 복잡한 전문 지식을 사용자의 수준에 맞춰 쉽게 설명해 줍니다. ### 효과적인 활용을 위한 지침과 한계 * **명확한 프롬프트 작성**: 최선의 결과를 얻기 위해서는 구체적인 배경 정보, 목표, 선호하는 스타일을 포함하여 AI에게 명확한 맥락을 제공해야 합니다. * **지속적인 미세 조정**: 모델은 초기 학습 이후에도 인간의 피드백(RLHF)과 정교한 튜닝 과정을 거쳐 안전성과 정확성을 지속적으로 개선합니다. * **비판적 검토 필수**: AI는 사실관계 오류(환각 현상)를 일으키거나 학습 데이터의 편향을 드러낼 수 있으므로, 생성된 결과물에 대한 사용자의 최종 검증이 반드시 필요합니다. AI 채팅은 기술과 상호작용하는 방식을 근본적으로 바꾸고 있습니다. 단순한 검색을 넘어 AI와 대화하며 생각을 구체화하고 작업을 완성해 나가는 과정은 현대 업무 환경에서 필수적인 역량이 될 것입니다. 기술의 한계를 인지하되 적극적으로 맥락을 공유하며 협업할 때 AI 채팅의 가치를 극대화할 수 있습니다.

AI 에이전트 샌드박싱, 100배 더 빠르게 (새 탭에서 열림)

Cloudflare는 AI 에이전트가 생성한 코드를 안전하고 신속하게 실행할 수 있는 'Dynamic Worker Loader' API를 공개했습니다. 이 기술은 기존 컨테이너 방식보다 100배 빠른 실행 속도와 뛰어난 메모리 효율성을 제공하여, 수백만 명의 사용자를 대상으로 하는 대규모 AI 에이전트 서비스의 보안 및 성능 문제를 해결합니다. 개발자는 이를 통해 AI가 작성한 코드를 독립된 V8 Isolate 환경에서 즉시 실행하고, TypeScript 인터페이스를 통해 효율적으로 도구(Tool)를 연동할 수 있습니다. ### 기존 컨테이너 기반 샌드박스의 한계 * AI가 생성한 코드를 직접 실행(eval)하는 것은 보안상 매우 위험하므로 격리된 샌드박스 환경이 필수적입니다. * 기존의 리눅스 기반 컨테이너 샌드박스는 부팅에 수백 밀리초(ms)가 소요되고 수백 메가바이트(MB)의 메모리를 점유하여 비용이 많이 듭니다. * 지연 시간을 줄이기 위해 컨테이너를 미리 띄워두는 방식은 자원 낭비가 심하며, 컨테이너를 재사용할 경우 보안성이 취약해지는 딜레마가 있습니다. ### V8 Isolate 기반의 'Dynamic Worker Loader' * Cloudflare는 구글 크롬에서 사용하는 V8 엔진의 격리 기술인 'Isolate'를 활용해 런타임에 워커를 즉시 생성하는 API를 제공합니다. * Isolate 기술은 실행에 단 몇 밀리초만 소요되며 수 메가바이트의 메모리만 사용하므로, 컨테이너 대비 속도는 100배 빠르고 메모리 효율은 10~100배 더 뛰어납니다. * 모든 유료 워커 사용자는 이 API를 통해 요청마다 독립된 샌드박스를 생성하고, 실행이 끝나면 즉시 폐기하는 방식을 비용 효율적으로 구현할 수 있습니다. ### 무한한 확장성과 제로 레이턴시 * 동적 워커 로더는 전역 동시 실행 수나 생성 속도에 제한이 없어, 초당 수백만 건의 요청이 발생하는 대규모 트래픽도 안정적으로 처리할 수 있습니다. * 샌드박스가 코드를 호출한 워커와 동일한 머신 혹은 동일한 스레드 내에서 실행되므로, 전 세계 어느 지역에서든 네트워크 지연 없이 즉각적인 코드 실행이 가능합니다. * 특정 API에 대한 접근 권한을 부여하거나 외부 인터넷 접속을 차단하는 등 세밀한 보안 제어가 가능합니다. ### AI 친화적인 TypeScript 도구 정의 * AI 에이전트는 이미 자바스크립트와 타입스크립트에 능숙하며, 이러한 언어들은 태생적으로 웹 샌드박스 환경에 최적화되어 있습니다. * 장황한 OpenAPI 명세 대신 간결한 TypeScript 인터페이스를 사용하여 에이전트에게 API 도구를 설명함으로써 토큰 사용량을 80% 이상 절감할 수 있습니다. * `env.LOADER.load()` 함수를 통해 생성된 워커에 RPC(Remote Procedure Call) 스텁을 전달하여 에이전트가 안전하게 외부 기능을 호출하도록 설계되었습니다. 대규모 AI 에이전트 서비스를 구축하려는 개발자에게 Cloudflare의 Dynamic Worker Loader는 최적의 선택지입니다. 기존의 무거운 컨테이너 방식에서 벗어나 V8 Isolate 기반의 가벼운 샌드박스를 채택하고, 도구 정의를 TypeScript로 전환함으로써 성능 최적화와 비용 절감을 동시에 달성할 수 있습니다.

LLM을 이용한 서비스 취약점 분석 자동화 #2 (새 탭에서 열림)

AI 기술의 비약적인 발전으로 취약점 분석 자동화가 새로운 국면을 맞이한 가운데, 대규모 소스코드를 효율적으로 분석하기 위한 구체적인 기술적 구현 방법과 보안 관점의 변화가 필요합니다. 본 글은 MCP(Model Context Protocol)를 통한 정밀한 코드 탐색과 SAST 도구를 활용한 분석 후보군 추출을 결합하여 분석의 일관성과 정확도를 높인 사례를 제시합니다. 결과적으로 AI가 단순한 보조 도구를 넘어 복합적인 추론을 수행하는 능동적인 보안 분석 주체로 진화하고 있음을 강조합니다. **MCP를 활용한 효율적인 소스코드 탐색** * 기존의 단순 패턴 매칭 방식은 불필요한 탐색으로 토큰을 낭비하거나 정확한 정의를 찾지 못하는 한계가 있어, 이를 개선하기 위해 ctags와 tree-sitter를 결합한 MCP 서버를 구축했습니다. * AI에게 IDE의 'Go to Definition'과 유사한 능력을 부여하기 위해 `find_references`(참조 검색), `read_definition`(심볼 정의 및 함수 범위 감지), `read_source`(주변 코드 읽기), `get_project_structure`(전체 구조 파악) 등 4가지 핵심 도구를 구현했습니다. * 이 시스템은 AI가 원격 서버 환경에서도 프로젝트의 전체적인 청사진을 이해하고, 분석이 필요한 코드의 맥락을 정확하게 짚어낼 수 있도록 돕습니다. **SAST와 AI의 결합을 통한 분석 범위 확장** * 분석의 일관성을 확보하기 위해 SAST(Semgrep 등)를 취약점 탐지용이 아닌, AI가 반드시 검토해야 할 '모든 입력 경로(Taint Path)'를 추출하는 보조 도구로 활용했습니다. * Spring 프레임워크의 @RequestParam, @RequestBody 등 모든 입력 지점(Source)에서 함수 호출(Sink)까지의 도달 경로를 추출하는 규칙을 설정하여 분석 후보군을 빠짐없이 확보했습니다. * 취약점 유무를 판단하기 어려운 복잡한 비즈니스 로직이나 보안 필터링의 유효성을 AI가 직접 검토하게 함으로써, 기존 정적 분석 도구의 한계를 AI의 문맥 이해 능력으로 보완했습니다. **체계적인 추론 과정(CoT) 설계** * AI가 분석을 시작하기 전 '계획 수립 - 도구 실행 - 검증 - 결과 분석'의 단계를 거치도록 Chain of Thought(CoT) 방식을 적용하여 분석 결과의 신뢰도를 높였습니다. * 단순히 코드를 단편적으로 보는 것이 아니라, MCP 도구를 활용해 연관된 코드와 비즈니스 로직을 충분히 탐색한 후 최종 판단을 내리도록 설계하여 오탐(False Positive)을 획기적으로 줄였습니다. * 이러한 구조화된 추론 과정을 통해 AI는 10개의 취약점 중 일부만 찾는 불완전한 분석에서 벗어나, 정해진 후보군 전체를 일관성 있게 전수 조사할 수 있게 되었습니다. **보안 패러다임의 전환** 현재의 AI는 단순한 챗봇을 넘어 보안 전문가의 사고 과정을 모사하는 에이전트로 진화하고 있습니다. 보안 담당자는 이제 AI에게 효율적인 코드 탐색 도구(MCP)를 제공하고 정밀한 분석 경로(SAST 활용)를 설계해 주는 'AI 오케스트레이터'로서의 역할을 고민해야 합니다. AI가 가진 강력한 추론 능력을 신뢰하되, 이를 올바른 방향으로 이끌 수 있는 환경을 구축하는 것이 보안 자동화의 핵심입니다.

Powering the agents: Workers AI now runs large models, starting with Kimi K2.5 (새 탭에서 열림)

Cloudflare는 자사의 AI 추론 플랫폼인 Workers AI에서 Moonshot AI의 **Kimi K2.5**를 시작으로 대규모 프런티어 모델 지원을 공식화했습니다. 이를 통해 개발자는 Durable Objects, Workflows 등 기존의 강력한 인프라와 고성능 LLM을 결합하여 에이전트의 전체 라이프사이클을 단일 플랫폼에서 관리할 수 있게 되었습니다. 특히 대형 모델의 추론 비용을 획기적으로 낮추고 성능을 최적화함으로써, 복잡한 추론 기능이 필요한 지능형 에이전트 구축의 진입 장벽을 제거했다는 점이 핵심입니다. ### Kimi K2.5 도입과 경제적 효용성 * **성능 사양:** 256k의 방대한 컨텍스트 윈도우를 지원하며, 멀티턴 도구 호출(Tool Calling), 비전 입력, 구조화된 출력 기능에 특화되어 복잡한 에이전트 작업에 적합합니다. * **비용 절감:** Cloudflare 내부의 보안 리뷰 에이전트에 적용한 결과, 기존 유료 독점 모델 대비 성능 저하 없이 비용을 약 77% 절감하는 효과를 거두었습니다. * **확장성:** 개인용 에이전트나 코딩 에이전트의 사용량이 급증하는 추세에서, 독점 모델의 높은 비용 문제를 해결하고 엔터프라이즈급 추론 능력을 경제적으로 제공합니다. ### 대규모 모델 추론 스택의 기술적 최적화 * **커스텀 커널 및 엔진:** 자체 추론 엔진인 'Infire'를 기반으로 Kimi K2.5에 최적화된 커스텀 커널을 적용하여 GPU 활용도와 처리 속도를 극대화했습니다. * **병렬화 및 분산 처리:** 데이터, 텐서, 전문가(Expert) 병렬화 기술뿐만 아니라, 프리필(Prefill)과 생성(Generation) 단계를 분리하는 '분산 프리필' 전략을 통해 높은 처리량을 확보했습니다. * **서버리스 편의성:** ML 엔지니어나 DevOps 전문가 없이도 API 호출만으로 이러한 고차원적인 최적화 기술이 적용된 대형 모델을 즉시 사용할 수 있습니다. ### 에이전트 워크로드를 위한 플랫폼 개선 * **프리픽스 캐싱(Prefix Caching):** 대화 맥락이나 시스템 프롬프트 등 중복되는 입력 텐서를 캐싱하여 프리필 단계의 계산을 생략함으로써, 첫 토큰 생성 시간(TTFT)을 단축하고 처리량을 높였습니다. * **세션 어피니티(Session Affinity) 헤더:** `x-session-affinity` 헤더를 도입하여 요청을 동일한 모델 인스턴스로 라우팅함으로써 캐시 히트율을 높이고 추론 비용을 추가로 절감할 수 있도록 지원합니다. * **캐시 토큰 할인:** 캐싱된 토큰 사용량을 명확히 시각화하여 제공하며, 일반 입력 토큰보다 저렴한 가격 정책을 적용하여 대규모 컨텍스트를 사용하는 에이전트의 비용 부담을 줄였습니다. 고성능 추론 능력이 필요한 복잡한 AI 에이전트를 구축하고자 한다면, Cloudflare Workers AI 플랫폼에서 Kimi K2.5와 세션 어피니티 기능을 활용해 보시기 바랍니다. 인프라 구축의 복잡성을 Cloudflare에 맡김으로써 개발자는 에이전트의 논리와 비즈니스 가치 창출에만 집중할 수 있습니다.

소프트웨어 3.0 시대를 맞이하며 (새 탭에서 열림)

소프트웨어 개발은 명시적 코딩(1.0)과 데이터 기반 학습(2.0)을 거쳐, 자연어 프롬프트가 프로그램이 되는 '소프트웨어 3.0' 시대로 진입하고 있습니다. 하지만 강력한 LLM 모델이라도 실질적인 업무를 수행하기 위해서는 모델의 능력을 제어하고 연결하는 '하네스(Harness)'라는 도구적 환경이 필수적이며, 이를 설계하는 데 있어 기존 소프트웨어 1.0의 계층형 아키텍처 원칙은 여전히 유효한 가이드가 됩니다. 결국 미래의 개발은 전통적인 설계 원칙을 유지하면서도, 에이전트가 인간과 소통하며 의사결정을 내리는 'Human-in-the-Loop(HITL)' 모델을 결합하는 방향으로 진화할 것입니다. **소프트웨어 3.0과 하네스의 필요성** - 안드레 카파시는 소프트웨어 3.0을 자연어로 된 프롬프트가 코드를 대신하는 시대로 정의하며, 이것이 이전 세대의 패러다임을 흡수할 것이라고 예측했습니다. - 하지만 LLM 단독으로는 코드베이스를 읽거나 데이터베이스에 접근하는 등의 실질적인 작업을 수행할 수 없다는 한계가 있습니다. - 이를 해결하기 위해 등장한 것이 '하네스(Harness)' 개념으로, 앤스로픽의 'Claude Code'처럼 모델이 도구(Skills)를 사용하고 외부와 통신하며 에이전트로 동작하게 만드는 실행 환경을 의미합니다. **계층형 아키텍처로 매핑한 에이전트 구조** - **슬래시 커맨드(Slash Command) = 컨트롤러(Controller):** `/review`, `/refactor`와 같은 명령어는 사용자 요청을 받아 적절한 워크플로우를 실행하는 서비스의 진입점 역할을 합니다. - **서브 에이전트(Sub-agent) = 서비스 계층(Service Layer):** 여러 기술(Skills)을 조합해 특정 비즈니스 로직을 완수하며, 독립적인 컨텍스트를 유지하는 단위입니다. - **기술(Skills) = 도메인 컴포넌트:** 단일 책임 원칙(SRP)에 따라 코드 리뷰, 테스트 생성 등 명확한 한 가지 기능만 수행하는 가장 작은 단위의 기능 모듈입니다. - **MCP(Model Context Protocol) = 인프라/어댑터:** 외부 API나 DB와의 연결을 추상화하여 내부 로직이 외부 시스템의 구현 상세를 몰라도 동작하게 돕습니다. - **CLAUDE.md = 프로젝트 헌장:** 기술 스택, 코딩 컨벤션 등 프로젝트의 변하지 않는 근간 원칙을 정의하며 시스템의 안정성을 보장합니다. **에이전트 설계에서 경계해야 할 안티패턴** - **God Sub-agent:** 하나의 서브 에이전트가 너무 많은 역할과 권한을 가지게 되면 관리 효율이 떨어지므로 적절한 분리가 필요합니다. - **기능 편애(Feature Envy):** 특정 기술이 자신의 역할 범위를 벗어나 다른 기술의 데이터나 프롬프트에 과도하게 의존하는 경우입니다. - **프롬프트 중복:** 동일한 프롬프트 내용이 여러 기술에 중복되어 포함될 경우 유지보수가 어려워지므로 공통화가 필요합니다. **에이전트만의 핵심 차별점: 질문하는 능력(HITL)** - 전통적인 소프트웨어는 예외 상황에서 미리 정의된 에러를 던지지만, 3.0 시대의 에이전트는 `UserAskQuestion` 기술을 통해 모호한 상황에서 사용자에게 직접 질문을 던질 수 있습니다. - 에이전트는 삭제나 배포처럼 되돌리기 어려운 작업, 혹은 여러 대안 중 선택이 필요한 고위험 상황에서 인간의 판단을 구하는 'Human-in-the-Loop' 구조를 가집니다. - 반면, 관습적으로 처리 가능한 일이나 안전한 반복 작업은 질문 없이 자율적으로 수행함으로써 효율성과 안정성 사이의 균형을 맞춥니다. 소프트웨어 3.0 시대에 적응하기 위해서는 모든 로직을 명시적으로 작성하려는 강박에서 벗어나야 합니다. 대신 계층 분리, 추상화, 단일 책임 원칙과 같은 전통적인 소프트웨어 공학의 정수를 에이전트 설계에 투영하여, LLM을 단순한 자동완성 도구가 아닌 신뢰할 수 있는 협력자로 구축하는 능력이 핵심 경쟁력이 될 것입니다.

초전도 연구 질문에 대한 LLM 테스트 (새 탭에서 열림)

현대 물리학의 난제인 고온 초전도체 연구에서 대규모 언어 모델(LLM)이 전문가 수준의 파트너가 될 수 있는지를 검증한 결과, 선별된 고품질 자료를 기반으로 한 모델이 일반 범용 모델보다 압도적으로 우수한 성능을 보였습니다. 구글 리서치와 코넬 대학교 연구팀은 6개의 LLM을 대상으로 전문 지식을 묻는 67개의 질문을 던져 답변의 정확성과 신뢰성을 평가했으며, 이를 통해 특정 학문 분야에 특화된 데이터 큐레이션의 중요성을 입증했습니다. 결과적으로 NotebookLM과 맞춤형 RAG 시스템이 증거 제시와 균형 잡힌 시각 측면에서 가장 높은 점수를 받으며 전문 과학 연구를 돕는 도구로서의 가능성을 보여주었습니다. **연구 배경 및 고온 초전도체 사례 선정** * 고온 초전도체(구프레이트 화합물)는 영하 140도 이상의 온도에서 전기 저항이 0이 되는 현상으로, 1987년 노벨상 수상 이후에도 여전히 메커니즘 규명이 진행 중인 복잡한 분야입니다. * 수십 년간 축적된 방대한 논문과 서로 대립하는 다양한 이론들로 인해, 신규 연구자가 지식의 전체상을 파악하고 중립적인 관점을 유지하기가 매우 어렵습니다. * 이번 연구는 LLM이 이러한 전문 분야에서 편향되지 않은 지식을 제공하고, 가설 설정을 돕는 '연구 파트너'로서 기능할 수 있는지 확인하기 위해 설계되었습니다. **평가 설계 및 실험 방법론** * 평가 대상은 웹 접근이 가능한 범용 모델 4종(GPT-4o, Perplexity, Claude 3.5, Gemini Advanced Pro 1.5)과 엄선된 자료만 사용하는 폐쇄형 시스템 2종(NotebookLM, 맞춤형 RAG)으로 구성되었습니다. * 폐쇄형 시스템 구축을 위해 초전도체 전문가 12명이 선정한 15개의 핵심 리뷰 논문과 이들이 인용한 약 1,726개의 실험 및 이론 논문을 데이터 소스로 활용했습니다. * 전문가 패널은 "LSCO의 어느 도핑 수준에서 립시츠 전이가 발생하는가?"와 같이 고도의 전문성을 요구하는 67개의 질문을 작성하여 각 모델의 답변을 블라인드 테스트로 평가했습니다. **주요 결과 및 모델별 성능 평가** * 6가지 평가지표(균형 잡힌 시각, 포괄성, 간결성, 증거 토대, 시각적 관련성, 정성적 피드백)에서 구글의 NotebookLM이 가장 뛰어난 성과를 거두었으며, 맞춤형 RAG 시스템이 그 뒤를 이었습니다. * 특히 NotebookLM은 문헌 근거를 제시하는 '증거 토대' 항목에서 가장 높은 점수를 받았으며, 이는 전문가가 검증한 신뢰할 수 있는 소스 내부에서 답을 찾도록 제한한 것이 주효했음을 보여줍니다. * Gemini Advanced Pro 1.5와 NotebookLM은 여러 대립하는 이론적 관점을 골고루 다루는 '균형 잡힌 시각' 항목에서 우수한 점수를 기록하여 과학적 중립성을 잘 유지했습니다. 이번 사례 연구는 범용적인 웹 검색 기반 AI보다 신뢰할 수 있는 학술 출처를 사전에 큐레이션한 '폐쇄형 데이터 시스템'이 전문 과학 연구에서 훨씬 유용하다는 사실을 시사합니다. 향후 과학적 발견을 가속화하기 위해서는 모델 자체의 성능 개선뿐만 아니라, 검증된 데이터셋을 효과적으로 활용하는 검색 증강 생성(RAG) 기술의 고도화가 필수적입니다. 연구자들은 AI를 단순한 정보 검색 도구를 넘어, 복잡한 이론적 쟁점을 정리하고 논리적 허점을 찾아주는 비판적 사고의 동료로 활용할 수 있을 것입니다.