ai-models

2 개의 포스트

TurboQuant: 극한의 압축으로 AI 효율성을 재정의하다 (새 탭에서 열림)

Google Research가 발표한 **TurboQuant**는 대규모 언어 모델(LLM)과 벡터 검색 엔진의 효율성을 극대화하기 위해 설계된 이론 기반의 압축 알고리즘입니다. 이 기술은 기존 양자화 방식의 고질적인 문제였던 메모리 오버헤드를 완전히 해결하여, 모델 성능 저하 없이 KV(Key-Value) 캐시 크기를 6배 이상 줄이고 추론 속도를 최대 8배까지 향상시킵니다. 결과적으로 TurboQuant는 추가적인 파인튜닝 없이도 초거대 AI 모델의 메모리 병목 현상을 해결하는 실질적인 솔루션을 제시합니다. ### 기존 양자화 방식의 한계와 메모리 오버헤드 * 전통적인 벡터 양자화는 데이터 크기를 줄이는 데 효과적이지만, 각 데이터 블록마다 정밀한 양자화 상수를 별도로 계산하고 저장해야 하는 '메모리 오버헤드'가 발생합니다. * 이러한 상수는 숫자당 보통 1~2비트의 추가 용량을 차지하며, 이는 전체 압축 효율을 떨어뜨리는 주요 원인이 됩니다. * 고차원 벡터를 사용하는 AI 모델에서는 이러한 오버헤드가 누적되어 KV 캐시의 병목 현상을 심화시키고 전체 시스템의 메모리 비용을 증가시킵니다. ### PolarQuant: 극좌표계를 활용한 혁신적 압축 * PolarQuant는 벡터를 기존의 데카르트 좌표계(X, Y, Z) 대신 극좌표계(반지름과 각도)로 변환하여 처리하는 새로운 접근 방식을 취합니다. * 데이터의 각도가 특정 패턴으로 집중되어 있다는 점을 활용하여, 경계값이 계속 변하는 사각형 그리드 대신 고정된 원형 그리드에 데이터를 매핑합니다. * 이를 통해 매번 정규화 단계를 거칠 필요가 없어져 기존 양자화 방식이 가졌던 메모리 오버헤드를 근본적으로 제거합니다. * 반지름 쌍을 재귀적으로 변환하여 최종적으로는 단 하나의 반지름과 데이터의 의미를 담은 여러 각도로 데이터를 압축합니다. ### QJL: 1비트의 마법을 통한 오차 제거 * QJL(Quantized Johnson-Lindenstrauss) 알고리즘은 데이터의 필수적인 거리와 관계를 유지하면서 고차원 데이터를 1비트 부호(+1 또는 -1)로 압축합니다. * TurboQuant의 두 번째 단계에서 사용되며, 첫 번째 단계(PolarQuant)에서 발생한 미세한 잔차 오차를 제거하는 수학적 오류 체크 역할을 수행합니다. * 고정밀 쿼리와 저정밀 데이터를 전략적으로 결합하는 특수 추정기(Estimator)를 사용하여 모델이 어텐션 스코어를 계산할 때 편향 없는 정확한 결과를 도출하게 돕습니다. ### 실험 결과 및 성능 지표 * **성능 유지:** LongBench, RULER 등 다양한 벤치마크에서 Gemma와 Mistral 모델을 테스트한 결과, KV 캐시를 3비트로 양자화해도 성능 저하가 거의 없는 것으로 나타났습니다. * **압축 효율:** 추가적인 학습이나 파인튜닝 없이도 KV 캐시 메모리 사용량을 최소 6배 이상 절감합니다. * **속도 향상:** H100 GPU 환경에서 4비트 TurboQuant를 적용할 경우, 양자화되지 않은 32비트 키 값을 사용할 때보다 어텐션 로짓 계산 속도가 최대 8배 빨라집니다. TurboQuant는 긴 컨텍스트(Long-context) 처리가 필요한 현대 AI 서비스에서 비용과 성능이라는 두 마리 토끼를 잡을 수 있는 강력한 도구입니다. 특히 하드웨어 자원이 제한된 환경에서 대규모 모델을 운영하거나, 실시간 응답 속도가 중요한 검색 서비스에 도입했을 때 가장 큰 효과를 기대할 수 있습니다.

Powering the agents: Workers AI now runs large models, starting with Kimi K2.5 (새 탭에서 열림)

Cloudflare는 자사의 AI 추론 플랫폼인 Workers AI에서 Moonshot AI의 **Kimi K2.5**를 시작으로 대규모 프런티어 모델 지원을 공식화했습니다. 이를 통해 개발자는 Durable Objects, Workflows 등 기존의 강력한 인프라와 고성능 LLM을 결합하여 에이전트의 전체 라이프사이클을 단일 플랫폼에서 관리할 수 있게 되었습니다. 특히 대형 모델의 추론 비용을 획기적으로 낮추고 성능을 최적화함으로써, 복잡한 추론 기능이 필요한 지능형 에이전트 구축의 진입 장벽을 제거했다는 점이 핵심입니다. ### Kimi K2.5 도입과 경제적 효용성 * **성능 사양:** 256k의 방대한 컨텍스트 윈도우를 지원하며, 멀티턴 도구 호출(Tool Calling), 비전 입력, 구조화된 출력 기능에 특화되어 복잡한 에이전트 작업에 적합합니다. * **비용 절감:** Cloudflare 내부의 보안 리뷰 에이전트에 적용한 결과, 기존 유료 독점 모델 대비 성능 저하 없이 비용을 약 77% 절감하는 효과를 거두었습니다. * **확장성:** 개인용 에이전트나 코딩 에이전트의 사용량이 급증하는 추세에서, 독점 모델의 높은 비용 문제를 해결하고 엔터프라이즈급 추론 능력을 경제적으로 제공합니다. ### 대규모 모델 추론 스택의 기술적 최적화 * **커스텀 커널 및 엔진:** 자체 추론 엔진인 'Infire'를 기반으로 Kimi K2.5에 최적화된 커스텀 커널을 적용하여 GPU 활용도와 처리 속도를 극대화했습니다. * **병렬화 및 분산 처리:** 데이터, 텐서, 전문가(Expert) 병렬화 기술뿐만 아니라, 프리필(Prefill)과 생성(Generation) 단계를 분리하는 '분산 프리필' 전략을 통해 높은 처리량을 확보했습니다. * **서버리스 편의성:** ML 엔지니어나 DevOps 전문가 없이도 API 호출만으로 이러한 고차원적인 최적화 기술이 적용된 대형 모델을 즉시 사용할 수 있습니다. ### 에이전트 워크로드를 위한 플랫폼 개선 * **프리픽스 캐싱(Prefix Caching):** 대화 맥락이나 시스템 프롬프트 등 중복되는 입력 텐서를 캐싱하여 프리필 단계의 계산을 생략함으로써, 첫 토큰 생성 시간(TTFT)을 단축하고 처리량을 높였습니다. * **세션 어피니티(Session Affinity) 헤더:** `x-session-affinity` 헤더를 도입하여 요청을 동일한 모델 인스턴스로 라우팅함으로써 캐시 히트율을 높이고 추론 비용을 추가로 절감할 수 있도록 지원합니다. * **캐시 토큰 할인:** 캐싱된 토큰 사용량을 명확히 시각화하여 제공하며, 일반 입력 토큰보다 저렴한 가격 정책을 적용하여 대규모 컨텍스트를 사용하는 에이전트의 비용 부담을 줄였습니다. 고성능 추론 능력이 필요한 복잡한 AI 에이전트를 구축하고자 한다면, Cloudflare Workers AI 플랫폼에서 Kimi K2.5와 세션 어피니티 기능을 활용해 보시기 바랍니다. 인프라 구축의 복잡성을 Cloudflare에 맡김으로써 개발자는 에이전트의 논리와 비즈니스 가치 창출에만 집중할 수 있습니다.