llm - Cloudflare | Techlist.io

cloudflare 2026년 4월 20일

Orchestrating AI Code Review at scale (새 탭에서 열림)

Cloudflare는 기존 AI 코드 리뷰 도구의 유연성 부족과 단순 요약 방식의 한계를 극복하기 위해 오픈소스 에이전트인 OpenCode 기반의 CI 네이티브 오케스트레이션 시스템을 구축했습니다. 이 시스템은 보안, 성능 등 각 분야에 특화된 다수의 전문 에이전트를 코디네이터가 관리하여 노이즈를 줄이고 정확도 높은 리뷰 결과를 제공합니다. 현재 수만 개의 머지 리퀘스트를 처리하며 실제 버그와 보안 취약점을 효과적으로 차단하는 등 엔지니어링 생산성을 획기적으로 개선하고 있습니다. **기존 접근 방식의 한계와 다중 에이전트 전략** * 단순히 Git Diff를 LLM에 입력하는 방식은 환각(Hallucination) 현상과 무의미한 수정 제안 등 노이즈가 많아 실질적인 코드 품질 향상에 한계가 있었음. * Cloudflare는 하나의 거대한 모델 대신 보안, 성능, 코드 품질, 문서화, 릴리스 관리, 내부 규정 준수 등 최대 7개의 전문 에이전트를 동시에 실행하는 구조를 선택함. * '코디네이터 에이전트'가 개별 에이전트의 발견 사항을 취합하여 중복을 제거하고, 문제의 실제 심각도를 판단한 뒤 하나의 구조화된 리뷰 코멘트로 통합함. **플러그인 기반의 유연한 아키텍처** * 다양한 버전 관리 시스템(VCS)과 AI 프로바이더를 지원하기 위해 `ReviewPlugin` 인터페이스 기반의 컴포저블 아키텍처를 채택함. * 리뷰 실행 주기는 세 단계로 나먐: 병렬로 실행되는 `Bootstrap`(비동기 준비), 순차적으로 실행되며 실패 시 중단되는 `Configure`(필수 설정), 그리고 원격 설정 로드 등을 처리하는 `postConfigure` 단계임. * `ConfigureContext` API를 통해 각 플러그인은 독립적으로 에이전트 등록, 프롬프트 주입, 환경 변수 설정을 수행하며, 최종적으로 `opencode.json` 설정 파일로 병합됨. * 이러한 격리 구조 덕분에 GitLab 플러그인이 AI Gateway 설정을 알 필요가 없는 등 컴포넌트 간 결합도를 최소화함. **OpenCode와 Bun을 활용한 기술적 구현** * OpenCode는 오픈소스이며 서버 중심 구조를 가지고 있어 프로그래밍 방식으로 세션을 생성하고 SDK를 통해 결과를 수집하기에 적합함. * 대규모 머지 리퀘스트 처리 시 발생하는 Linux 커널의 `ARG_MAX` 제한(E2BIG 에러)을 해결하기 위해, Bun의 `stdin` 스트림을 통해 대용량 프롬프트를 전달함. * 오케스트레이터는 OpenCode를 자식 프로세스(`Bun.spawn`)로 실행하며, 모든 출력은 JSONL 형식의 `stdout` 이벤트를 통해 실시간으로 모니터링 및 수집됨. Cloudflare의 사례는 단순한 AI 도입을 넘어, 대규모 조직의 복잡한 표준과 요구사항을 충족하기 위해 다중 에이전트와 플러그인 시스템이 왜 필요한지 잘 보여줍니다. 특히 CI/CD 파이프라인의 핵심 경로에 AI를 배치할 때 발생하는 인자 크기 제한이나 도구 간 결합도 문제를 해결한 아키텍처는 대규모 엔지니어링 팀에 실질적인 가이드라인이 될 것입니다.

llm database-design gitlab ci-cd+4

cloudflare 2026년 4월 17일

Unweight: how we compressed an LLM 22% without sacrificing quality (새 탭에서 열림)

Cloudflare는 LLM의 가중치를 15~22% 압축하면서도 출력 결과의 정확도를 비트 단위로 완벽하게 보존하는 무손실 압축 시스템인 'Unweight'를 공개했습니다. 이 시스템은 NVIDIA H100 GPU의 연산 능력에 비해 현저히 느린 메모리 대역폭 병목 현상을 해결하기 위해 설계되었으며, 추론 시 가중치를 고속 온칩 메모리(Shared Memory)에서 직접 해제하여 처리 효율을 극대화합니다. 결과적으로 Llama-3.1-8B 모델 기준 약 3GB의 VRAM을 절약함으로써, 품질 저하 없이 더 적은 자원으로 더 빠른 추론 서비스를 제공할 수 있게 되었습니다. ### 메모리 대역폭 병목 현상과 무손실 압축의 필요성 * **컴퓨팅-메모리 불균형:** NVIDIA H100의 텐서 코어는 메모리가 데이터를 전달하는 속도보다 약 600배 빠르게 데이터를 처리할 수 있어, 추론 속도의 핵심은 '메모리 버스를 통과하는 데이터양'을 줄이는 데 있습니다. * **양자화의 한계:** 4비트나 8비트 정수로 변환하는 기존 양자화 방식은 손실 압축(Lossy)이므로 모델의 응답 품질을 예측할 수 없게 만듭니다. * **무손실 아키텍처:** Unweight는 비트 단위로 동일한(Bit-exact) 출력을 보장하면서도 가중치 크기를 줄여, 서비스 품질을 타협하지 않고 하드웨어 효율성만 높였습니다. ### BF16 지수(Exponent) 데이터의 중복성 활용 * **데이터 구조 분석:** BF16 가중치는 부호(1비트), 지수(8비트), 가수(7비트)로 구성되는데, 이 중 부호와 가수는 무작위성이 강해 압축이 어렵지만 지수 부분은 매우 높은 중복성을 보입니다. * **지수 분포의 편향성:** 일반적인 LLM 레이어에서 가장 빈번하게 등장하는 상위 16개의 지수 값이 전체 가중치의 99% 이상을 차지한다는 점에 착안했습니다. * **허프만 코딩(Huffman Coding) 적용:** 정보 이론에 따라 빈도가 높은 지수에는 짧은 코드를, 낮은 지수에는 긴 코드를 할당하는 허프만 코딩을 통해 지수 스트림에서 약 30%의 압축률을 달성했습니다. ### GPU 온칩 메모리를 활용한 효율적 압축 해제 * **SMEM 직접 해제:** 압축된 가중치를 느린 메인 메모리(HBM)로 다시 돌려보내지 않고, 텐서 코어 바로 옆의 빠른 공유 메모리(SMEM)에서 즉시 해제하여 연산에 투입함으로써 추가적인 지연 시간을 방지합니다. * **선택적 적용:** 모델 파라미터의 약 2/3를 차지하며 메모리 트래픽의 주원인인 MLP(Multi-Layer Perceptron) 가중치 행렬에 집중적으로 적용하여 효율을 높였습니다. * **행 단위(Row-based) 최적화:** 64개 가중치로 구성된 한 행에 희귀 지수가 하나라도 포함되면 해당 행 전체를 무압축 상태로 저장하여, 커널 실행 시 복잡한 분기 처리를 줄이고 처리 속도를 최적화했습니다. ### 실용적인 결론 및 권장사항 Unweight는 모델의 정확도를 1%도 포기할 수 없으면서 VRAM 부족 문제를 해결해야 하는 고성능 추론 환경에 최적화된 솔루션입니다. 특히 NVIDIA Hopper 아키텍처(H100 등)를 사용하는 환경에서 Llama-3.1-8B와 같은 모델을 운용할 때 약 3GB의 메모리 여유 공간을 확보할 수 있어, 더 큰 배치 사이즈를 운용하거나 더 많은 모델을 하나의 GPU에 올리는 데 유용합니다. Cloudflare는 이 기술의 확산을 위해 기술 논문과 함께 GPU 커널을 오픈소스로 공개하였습니다.

llm database-design rust model-inference+4

cloudflare 2026년 4월 16일

Building the foundation for running extra-large language models (새 탭에서 열림)

Cloudflare의 Workers AI는 Kimi K2.5와 같은 초대형 언어 모델(LLM)을 효율적으로 구동하기 위해 소프트웨어와 하드웨어의 균형을 맞춘 최적화된 인프라를 구축하고 있습니다. 특히 에이전트 기반 서비스에서 발생하는 긴 컨텍스트와 반복되는 입력을 처리하기 위해 입력(Prefill)과 출력(Decode) 단계를 분리하고 캐싱 효율을 극대화하는 전략을 취했습니다. 이를 통해 기존 대비 추론 속도를 3배 향상시키고 지연 시간의 변동성을 대폭 줄이는 성과를 거두었습니다. ### Prefill과 Decode 단계의 분리 (PD Disaggregation) * LLM 추론의 두 단계인 'Prefill'(입력 토큰 처리, 연산 중심)과 'Decode'(출력 토큰 생성, 메모리 대역폭 중심)를 별도의 서버에서 독립적으로 수행하도록 아키텍처를 설계했습니다. * 단일 GPU에서 두 단계가 서로를 방해(Blocking)하며 자원 효율을 떨어뜨리는 문제를 해결하여 GPU 활용도를 극대화했습니다. * 토큰 인식 부하 분산(Token-aware load balancing) 기술을 적용해 각 서버의 처리량을 실시간으로 추정하고 부하를 균등하게 배분합니다. * 이 구조를 통해 첫 토큰 생성 시간(TTFT)의 편차를 줄이고, 토큰 당 생성 시간을 기존 100ms에서 20~30ms 수준으로 개선했습니다. ### 프롬프트 캐싱 및 세션 어피니티 (Prompt Caching) * 에이전트형 서비스의 특성상 시스템 프롬프트나 이전 대화 기록 등 반복되는 긴 입력이 많다는 점에 착안하여 프롬프트 캐싱을 최적화했습니다. * `x-session-affinity` 헤더를 도입하여 동일한 세션의 요청이 이전 입력 텐서가 계산된 리전으로 라우팅되도록 유도했습니다. * 이러한 세션 고정 라우팅을 통해 피크 시간대 입력 토큰 캐시 히트율을 60%에서 80%까지 끌어올렸으며, 전체적인 처리량을 크게 향상시켰습니다. * 사용자가 캐싱을 적극적으로 활용하도록 캐시된 토큰에 대해 할인된 가격을 제공하는 경제적 유인책을 병행합니다. ### KV 캐시 최적화 및 Mooncake 엔진 활용 * 초대형 모델은 여러 GPU에 걸쳐 실행되므로, GPU 간에 KV 캐시(입력 텐서 저장 공간)를 효율적으로 공유하는 것이 필수적입니다. * Moonshot AI의 'Mooncake' 전송 엔진을 활용해 NVLink 및 NVMe over Fabric과 같은 RDMA 프로토콜 기반의 직접 메모리 전송을 구현, CPU 개입 없이 데이터를 빠르게 전달합니다. * LMCache 및 SGLang HiCache를 사용하여 클러스터 내 모든 노드가 캐시를 공유하므로, 특정 노드에 종속되지 않고 캐시를 재사용할 수 있습니다. * 캐시 저장소를 GPU VRAM에서 NVMe 스토리지로 확장하여 세션 유지 시간을 늘리고 더 많은 트래픽을 효율적으로 수용합니다. ### 결론 및 제언 Cloudflare Workers AI에서 대규모 모델을 사용하는 개발자라면 `x-session-affinity` 헤더를 반드시 사용하여 프롬프트 캐싱 혜택을 받는 것이 권장됩니다. 이는 단순한 속도 향상을 넘어 토큰 비용 절감으로 이어지며, 특히 긴 대화 맥락을 유지해야 하는 AI 에이전트 서비스에서 성능 차이를 만드는 핵심 요소가 됩니다.

llm cloudflare gpu-optimization kv-cache+4

cloudflare 2026년 4월 12일

Welcome to Agents Week (새 탭에서 열림)

AI 에이전트의 시대가 도래함에 따라 기존의 컨테이너 기반 클라우드 인프라는 확장성과 비용 측면에서 한계에 직면하고 있습니다. 클라우드플레어는 일대다(1:N) 방식의 전통적인 아키텍처 대신, 개별 에이전트마다 독립적인 실행 환경을 즉시 제공할 수 있는 격리(Isolate) 기반의 서버리스 기술이 미래 인터넷의 핵심이 될 것이라고 주장합니다. 에이전트의 대중화를 위해서는 수 밀리초 안에 실행되고 자원 소모가 적은 가벼운 컴퓨팅 환경으로의 전환이 필수적이라는 결론입니다. **기존 클라우드 모델과 에이전트의 충돌** * 스마트폰 시대를 거치며 발전한 현재의 클라우드는 소수의 마이크로서비스 인스턴스가 다수의 사용자를 처리하는 '일대다(One-to-Many)' 모델을 기본으로 합니다. * 반면 AI 에이전트는 한 명의 사용자가 하나의 특정 작업을 수행하기 위해 고유한 실행 환경을 점유하는 '일대일(One-to-One)' 모델을 요구합니다. * 기존 애플리케이션이 정해진 메뉴를 제공하는 '레스토랑'이라면, 에이전트는 작업마다 다른 도구와 재료를 사용하는 '개인 요리사'와 같아서 기존의 컨테이너 방식으로는 이를 효율적으로 수용하기 어렵습니다. **에이전트 대중화를 가로막는 확장성 산식** * 수억 명의 지식 노동자가 동시에 에이전트를 사용할 경우, 기존 컨테이너 방식으로는 수백만 대의 서버 CPU가 필요하며 이는 현재 가용 가능한 컴퓨팅 용량을 수십 배 초과합니다. * 컨테이너는 실행 시 수백 메가바이트의 메모리를 소모하고 시작 속도가 느려, 에이전트 한 대당 운영 비용이 매우 높게 형성됩니다. * 이러한 경제적 한계 때문에 현재 에이전트 도구들은 높은 비용을 정당화할 수 있는 코딩 도구 등 일부 영역에만 국한되어 있습니다. **V8 Isolate 기술을 통한 인프라 혁신** * Cloudflare Workers의 기반인 V8 Isolate 기술은 컨테이너 대비 시작 속도는 약 100배 빠르고(수 밀리초), 메모리 사용량은 100배가량 효율적입니다. * 'Dynamic Workers' 환경을 통해 요청이 들어올 때마다 실시간으로 에이전트 실행 환경을 할당하고 작업 종료 즉시 폐기함으로써 하드웨어 밀도를 극대화할 수 있습니다. * Isolate는 에이전트가 필요로 하는 최소한의 자원만 할당하므로, 전 세계 수십억 명의 사용자를 위한 에이전트 서비스 운영에 필요한 경제적 타당성을 제공합니다. **전환기의 과제와 하이브리드 전략** * 현재는 에이전트가 사람이 사용하던 웹사이트를 탐색하기 위해 헤드리스 브라우저를 사용하는 '말 없는 마차(Horseless Carriage)' 단계에 머물러 있습니다. * 향후에는 에이전트가 직접 서비스를 호출하는 MCP(Model Context Protocol) 표준과 에이전트 전용 인증 방식이 확산될 것으로 보입니다. * 클라우드플레어는 파일 시스템과 바이너리 실행이 필수적인 코딩 에이전트를 위한 '컨테이너 기반 샌드박스'를 정식 출시함과 동시에, 가벼운 작업을 위한 Isolate 기술을 병행 지원하여 구시대와 신시대의 인프라를 연결할 계획입니다. 에이전트 중심의 서비스를 구축하려는 기업은 컨테이너 중심의 무거운 기존 설계에서 벗어나, 실행 밀도가 높고 비용 효율적인 Isolate 기반의 서버리스 아키텍처를 도입하여 대규모 사용자 환경에 대비할 것을 추천합니다.

llm database-design k8s microservices+4

cloudflare 2026년 3월 30일

Cloudflare Client-Side Security: smarter detection, now open to everyone (새 탭에서 열림)

Cloudflare는 클라이언트 사이드 보안(Client-Side Security) 기술을 모든 사용자에게 개방하고, 고도화된 스키밍 공격을 탐지하기 위해 대규모 언어 모델(LLM)을 결합한 새로운 AI 탐지 시스템을 도입했습니다. 이번 업데이트를 통해 셀프 서비스 고객도 'Advanced' 기능을 사용할 수 있게 되었으며, 특히 오탐지(False Positive)를 획기적으로 줄이면서도 복잡한 자바스크립트 공격에 대응할 수 있는 다중 방어 체계를 구축한 것이 핵심입니다. **클라이언트 사이드 보안의 작동 원리** * **브라우저 보고 기반 탐지:** 별도의 스캐너나 애플리케이션 수정 없이, 브라우저의 콘텐츠 보안 정책(CSP) 보고 기능을 활용해 신호를 수집하므로 지연 시간이 발생하지 않습니다. * **폭넓은 접근성:** 모든 무료 플랜 사용자에게 도메인 기반 위협 인텔리전스를 제공하며, 유료 셀프 서비스 고객은 코드 변경 모니터링 및 능동적 차단 규칙이 포함된 Advanced 기능을 즉시 사용할 수 있습니다. * **컴플라이언스 지원:** 지속적인 코드 변경 탐지 기능을 통해 PCI DSS v4(요구사항 11.6.1)와 같은 최신 보안 규정을 준수할 수 있도록 돕습니다. **추상 구문 트리(AST)와 의도 분석** * **데이터 규모와 변동성 관리:** 기업당 평균 2,200개의 고유 스크립트가 존재하며 그중 33%가 매달 업데이트되는 환경에서, 단순한 수동 승인이 아닌 스크립트의 '의도'를 파악하는 방식에 집중합니다. * **구조적 패턴 분석:** 자바스크립트 코드를 AST로 분해하여 논리적 구조를 분석함으로써, 변수명 변경이나 코드 난독화 여부와 관계없이 공격자의 패턴을 식별합니다. **GNN과 LLM을 결합한 하이브리드 탐지 아키텍처** * **GNN 기반 1차 선별:** 그래프 신경망(GNN)이 AST의 구조적 특성을 학습하여 제로데이 위협을 높은 재현율(Recall)로 빠르게 걸러냅니다. * **LLM 기반 2차 검증:** 0.3% 미만의 낮은 오탐율조차 일일 35억 건의 데이터 규모에서는 막대한 노이즈가 되므로, Cloudflare Workers AI에서 실행되는 LLM이 2차 판단을 내립니다. * **계층적 분류 알고리즘:** 모든 스크립트를 LLM으로 분석하는 대신, GNN이 의심스럽다고 판단한 항목만 LLM에 전달하는 '계단식 구조'를 통해 성능 최적화와 정확도 향상을 동시에 달성했습니다. **오탐지 해결을 위한 시맨틱 이해** * **복잡한 코드 구분:** 봇 차단 솔루션이나 광고 트래킹 스크립트처럼 난독화되어 있지만 정상적인 코드를 LLM의 심층적인 문맥 이해력을 통해 공격 코드로 오인하지 않도록 분류합니다. * **보안 팀의 피로도 감소:** 정확도가 낮은 경보를 획기적으로 줄임으로써, 보안 담당자가 실제 위협적인 침해 사고에만 집중할 수 있는 환경을 제공합니다. 웹사이트를 운영하는 조직은 Cloudflare의 새로운 Advanced 기능을 활용해 PCI DSS v4 준수 요건을 충족하는 동시에, 복잡해지는 공급망 공격(Supply Chain Attack)으로부터 사용자 데이터를 보호할 수 있습니다. 특히 난독화된 서드파티 스크립트가 많은 환경이라면, LLM 기반의 고도화된 탐지 엔진을 적용해 보안과 운영 효율성을 모두 확보할 것을 권장합니다.

llm machine-learning javascript abstract-syntax-tree+4

cloudflare 2026년 3월 24일

Sandboxing AI agents, 100x faster (새 탭에서 열림)

Cloudflare는 AI 에이전트가 생성한 코드를 안전하고 신속하게 실행할 수 있는 'Dynamic Worker Loader' API를 공개했습니다. 이 기술은 기존 컨테이너 방식보다 100배 빠른 실행 속도와 뛰어난 메모리 효율성을 제공하여, 수백만 명의 사용자를 대상으로 하는 대규모 AI 에이전트 서비스의 보안 및 성능 문제를 해결합니다. 개발자는 이를 통해 AI가 작성한 코드를 독립된 V8 Isolate 환경에서 즉시 실행하고, TypeScript 인터페이스를 통해 효율적으로 도구(Tool)를 연동할 수 있습니다. ### 기존 컨테이너 기반 샌드박스의 한계 * AI가 생성한 코드를 직접 실행(eval)하는 것은 보안상 매우 위험하므로 격리된 샌드박스 환경이 필수적입니다. * 기존의 리눅스 기반 컨테이너 샌드박스는 부팅에 수백 밀리초(ms)가 소요되고 수백 메가바이트(MB)의 메모리를 점유하여 비용이 많이 듭니다. * 지연 시간을 줄이기 위해 컨테이너를 미리 띄워두는 방식은 자원 낭비가 심하며, 컨테이너를 재사용할 경우 보안성이 취약해지는 딜레마가 있습니다. ### V8 Isolate 기반의 'Dynamic Worker Loader' * Cloudflare는 구글 크롬에서 사용하는 V8 엔진의 격리 기술인 'Isolate'를 활용해 런타임에 워커를 즉시 생성하는 API를 제공합니다. * Isolate 기술은 실행에 단 몇 밀리초만 소요되며 수 메가바이트의 메모리만 사용하므로, 컨테이너 대비 속도는 100배 빠르고 메모리 효율은 10~100배 더 뛰어납니다. * 모든 유료 워커 사용자는 이 API를 통해 요청마다 독립된 샌드박스를 생성하고, 실행이 끝나면 즉시 폐기하는 방식을 비용 효율적으로 구현할 수 있습니다. ### 무한한 확장성과 제로 레이턴시 * 동적 워커 로더는 전역 동시 실행 수나 생성 속도에 제한이 없어, 초당 수백만 건의 요청이 발생하는 대규모 트래픽도 안정적으로 처리할 수 있습니다. * 샌드박스가 코드를 호출한 워커와 동일한 머신 혹은 동일한 스레드 내에서 실행되므로, 전 세계 어느 지역에서든 네트워크 지연 없이 즉각적인 코드 실행이 가능합니다. * 특정 API에 대한 접근 권한을 부여하거나 외부 인터넷 접속을 차단하는 등 세밀한 보안 제어가 가능합니다. ### AI 친화적인 TypeScript 도구 정의 * AI 에이전트는 이미 자바스크립트와 타입스크립트에 능숙하며, 이러한 언어들은 태생적으로 웹 샌드박스 환경에 최적화되어 있습니다. * 장황한 OpenAPI 명세 대신 간결한 TypeScript 인터페이스를 사용하여 에이전트에게 API 도구를 설명함으로써 토큰 사용량을 80% 이상 절감할 수 있습니다. * `env.LOADER.load()` 함수를 통해 생성된 워커에 RPC(Remote Procedure Call) 스텁을 전달하여 에이전트가 안전하게 외부 기능을 호출하도록 설계되었습니다. 대규모 AI 에이전트 서비스를 구축하려는 개발자에게 Cloudflare의 Dynamic Worker Loader는 최적의 선택지입니다. 기존의 무거운 컨테이너 방식에서 벗어나 V8 Isolate 기반의 가벼운 샌드박스를 채택하고, 도구 정의를 TypeScript로 전환함으로써 성능 최적화와 비용 절감을 동시에 달성할 수 있습니다.

llm typescript cloudflare-workers api-design+4

cloudflare 2026년 3월 19일

Powering the agents: Workers AI now runs large models, starting with Kimi K2.5 (새 탭에서 열림)

Cloudflare는 자사의 AI 추론 플랫폼인 Workers AI에서 Moonshot AI의 **Kimi K2.5**를 시작으로 대규모 프런티어 모델 지원을 공식화했습니다. 이를 통해 개발자는 Durable Objects, Workflows 등 기존의 강력한 인프라와 고성능 LLM을 결합하여 에이전트의 전체 라이프사이클을 단일 플랫폼에서 관리할 수 있게 되었습니다. 특히 대형 모델의 추론 비용을 획기적으로 낮추고 성능을 최적화함으로써, 복잡한 추론 기능이 필요한 지능형 에이전트 구축의 진입 장벽을 제거했다는 점이 핵심입니다. ### Kimi K2.5 도입과 경제적 효용성 * **성능 사양:** 256k의 방대한 컨텍스트 윈도우를 지원하며, 멀티턴 도구 호출(Tool Calling), 비전 입력, 구조화된 출력 기능에 특화되어 복잡한 에이전트 작업에 적합합니다. * **비용 절감:** Cloudflare 내부의 보안 리뷰 에이전트에 적용한 결과, 기존 유료 독점 모델 대비 성능 저하 없이 비용을 약 77% 절감하는 효과를 거두었습니다. * **확장성:** 개인용 에이전트나 코딩 에이전트의 사용량이 급증하는 추세에서, 독점 모델의 높은 비용 문제를 해결하고 엔터프라이즈급 추론 능력을 경제적으로 제공합니다. ### 대규모 모델 추론 스택의 기술적 최적화 * **커스텀 커널 및 엔진:** 자체 추론 엔진인 'Infire'를 기반으로 Kimi K2.5에 최적화된 커스텀 커널을 적용하여 GPU 활용도와 처리 속도를 극대화했습니다. * **병렬화 및 분산 처리:** 데이터, 텐서, 전문가(Expert) 병렬화 기술뿐만 아니라, 프리필(Prefill)과 생성(Generation) 단계를 분리하는 '분산 프리필' 전략을 통해 높은 처리량을 확보했습니다. * **서버리스 편의성:** ML 엔지니어나 DevOps 전문가 없이도 API 호출만으로 이러한 고차원적인 최적화 기술이 적용된 대형 모델을 즉시 사용할 수 있습니다. ### 에이전트 워크로드를 위한 플랫폼 개선 * **프리픽스 캐싱(Prefix Caching):** 대화 맥락이나 시스템 프롬프트 등 중복되는 입력 텐서를 캐싱하여 프리필 단계의 계산을 생략함으로써, 첫 토큰 생성 시간(TTFT)을 단축하고 처리량을 높였습니다. * **세션 어피니티(Session Affinity) 헤더:** `x-session-affinity` 헤더를 도입하여 요청을 동일한 모델 인스턴스로 라우팅함으로써 캐시 히트율을 높이고 추론 비용을 추가로 절감할 수 있도록 지원합니다. * **캐시 토큰 할인:** 캐싱된 토큰 사용량을 명확히 시각화하여 제공하며, 일반 입력 토큰보다 저렴한 가격 정책을 적용하여 대규모 컨텍스트를 사용하는 에이전트의 비용 부담을 줄였습니다. 고성능 추론 능력이 필요한 복잡한 AI 에이전트를 구축하고자 한다면, Cloudflare Workers AI 플랫폼에서 Kimi K2.5와 세션 어피니티 기능을 활용해 보시기 바랍니다. 인프라 구축의 복잡성을 Cloudflare에 맡김으로써 개발자는 에이전트의 논리와 비즈니스 가치 창출에만 집중할 수 있습니다.

llm database-design k8s cloudflare+4

cloudflare 2026년 3월 11일

AI Security for Apps is now generally available (새 탭에서 열림)

Cloudflare는 AI 기반 애플리케이션에 대한 위협을 실시간으로 탐지하고 방어하는 'AI Security for Apps'를 정식 출시(GA)하며, 모든 요금제 사용자에게 AI 엔드포인트 탐색 기능을 무료로 제공합니다. 이 서비스는 프롬프트 주입이나 민감 정보 유출 등 AI 특유의 보안 위험을 관리하고, 기존 Cloudflare WAF와 결합하여 고도화된 방어 체계를 구축할 수 있도록 지원합니다. 특히 사용자 정의 주제 탐지와 프롬프트 추출 기능이 추가되어 기업별 맞춤형 보안 정책 수립이 가능해진 것이 핵심입니다. ### AI 엔드포인트 자동 탐색 (Discovery) * 웹 자산 내에서 LLM(대규모 언어 모델)이 사용되는 모든 엔드포인트를 자동으로 식별하고 `cf-llm` 라벨을 부여하여 가시성을 제공합니다. * 단순히 `/chat`과 같은 경로 패턴을 매칭하는 방식이 아니라, 엔드포인트의 실제 동작 방식을 분석하기 때문에 추천 엔진이나 속성 평가 도구처럼 채팅 인터페이스가 없는 AI 서비스도 감지할 수 있습니다. * Free, Pro, Business를 포함한 모든 요금제 고객에게 무료로 제공되어, 보안 팀이 파악하지 못한 '섀도우 AI' 배포를 효과적으로 관리할 수 있게 돕습니다. ### 지능형 위협 탐지 및 사용자 정의 기능 (Detection) * 프롬프트 주입(Prompt Injection), 개인정보(PII) 노출, 유해한 주제 등을 실시간으로 감지하는 상시 보안 모듈을 가동합니다. * **사용자 정의 주제 탐지:** 기업의 필요에 따라 특정 금융 상품, 환자 데이터, 경쟁사 언급 등 차단하거나 모니터링해야 할 특정 주제를 정의하고 관련성 점수를 출력할 수 있습니다. * **프롬프트 추출 및 최적화:** OpenAI, Anthropic, Google Gemini 등 주요 AI 공급자의 데이터 구조를 기본 지원하며, 향후 JSONPath를 통해 프롬프트가 위치한 특정 필드를 직접 지정함으로써 오탐(False Positive)을 최소화할 수 있습니다. ### WAF 연동을 통한 통합 방어 (Mitigation) * 탐지된 위협 신호를 기존 Cloudflare WAF 룰 빌더와 연동하여 차단, 로그 기록, 커스텀 응답 등의 조치를 즉각적으로 취할 수 있습니다. * AI 전용 보안 신호와 IP 평판, 봇 탐지 데이터, 브라우저 핑거프린트 등 기존의 풍부한 보안 데이터를 결합하여 다각적인 상관관계 분석이 가능합니다. * 이는 AI 레이어만 보는 포인트 솔루션과 달리, 네트워크 계층부터 애플리케이션 계층까지 아우르는 통합 보안 계층을 제공한다는 강점이 있습니다. AI가 단순한 챗봇을 넘어 시스템 권한을 가진 '에이전트'로 진화함에 따라 프롬프트 하나가 심각한 보안 사고로 이어질 수 있습니다. 기업은 Cloudflare가 제공하는 무료 탐색 기능을 활용해 조직 내 AI 노출 범위를 우선적으로 파악하고, WAF 기반의 가드레일을 설정하여 확률적으로 발생하는 AI 입력값에 대한 안전 장치를 마련하는 것이 좋습니다.

llm database-design cloudflare ai-security+4

cloudflare 2026년 3월 3일

How Cloudy translates complex security into human action (새 탭에서 열림)

Cloudflare의 'Cloudy'는 복잡한 보안 텔레메트리와 머신러닝 탐지 결과를 인간이 이해할 수 있는 언어로 번역해주는 LLM 기반의 설명 레이어입니다. 이 기술은 보안 팀과 엔드 유저가 탐지 결과의 이면에 있는 '이유'를 즉각적으로 파악하게 함으로써, 단순한 알림을 넘어 실질적인 행동 변화를 이끌어내는 것을 목표로 합니다. 결과적으로 Cloudy는 보안 운영 센터(SOC)의 업무 부하를 줄이고 조직 전체의 보안 의사결정 수준을 한 단계 높이는 역할을 수행합니다. ### 이메일 보안의 투명성 강화와 Phishnet 업그레이드 * **탐지 근거의 명확화**: 기존 머신러닝 모델은 악성 메일을 정확히 분류하지만, 왜 그렇게 판단했는지에 대한 설명이 부족했습니다. Cloudy는 발신 평판, 링크 동작, 인프라 메타데이터 등을 분석해 사용자에게 읽기 쉬운 요약본을 제공합니다. * **불필요한 SOC 보고 감소**: 사용자가 의심스러운 메일을 모두 SOC로 보낼 경우 발생하는 백로그 문제를 해결합니다. Cloudy의 실시간 요약을 통해 사용자는 스스로 위험을 판단할 수 있게 되어, 실제 조사가 필요한 메일만 선별적으로 보고하게 됩니다. * **상황 맥락적 보안 교육**: 정기적인 보안 교육 대신, 실제 위협에 직면한 순간에 구체적인 가이드를 제공함으로써 사용자의 보안 인식과 대응 능력을 실시간으로 강화합니다. ### Workers AI를 활용한 실시간 기술 구현 * **글로벌 엣지 처리**: Cloudy는 Cloudflare의 글로벌 네트워크인 Workers AI 플랫폼에서 구동됩니다. 사용자가 Phishnet 버튼을 클릭하는 즉시 실시간으로 작동하여 지연 시간을 최소화합니다. * **신호 집계 및 번역**: SPF/DKIM/DMARC 인증 결과, 발신자 평판, 콘텐츠 분석 등 복잡한 기술 신호를 수집한 뒤, 이를 평이한 자연어로 변환합니다. * **사용자 맞춤형 언어 선택**: 관리자 대시보드에서는 기술적인 디테일을 강조하는 반면, 일반 사용자용 Phishnet 화면에서는 'ASN'이나 'IP 평판' 같은 전문 용어 대신 "보낸 사람 확인 실패"와 같은 직관적인 표현을 사용합니다. ### CASB를 통한 SaaS 환경의 위험 관리 최적화 * **복잡한 설정 오류 해석**: Cloudflare CASB(Cloud Access Security Broker) 엔진과 결합하여 SaaS 환경의 잘못된 설정이나 위험한 액세스 권한을 분석합니다. * **신속한 해결 경로 제시**: 관리자가 복잡한 기술 신호를 일일이 수동으로 분석할 필요 없이, Cloudy가 제시하는 위험 요인과 조치 경로를 통해 즉각적인 위협 완화가 가능해집니다. ### 실용적인 제언 조직의 보안 담당자는 단순히 '차단'이나 '허용'의 이분법적 접근에서 벗어나, Cloudy와 같은 설명 가능한 보안(Explainable Security) 도구를 도입하여 사용자 참여형 보안 문화를 구축해야 합니다. 특히 SOC 팀의 리소스가 부족한 조직이라면, Phishnet의 Cloudy 업그레이드를 통해 사용자 발(發) 노이즈를 줄이고 고부하 위협 대응에 집중할 수 있는 환경을 조성할 것을 추천합니다.

llm machine-learning cloudflare cloudflare-workers+4

cloudflare 2026년 3월 3일

From reactive to proactive: closing the phishing gap with LLMs (새 탭에서 열림)

클라우드플레어는 기존의 사후 대응 중심의 이메일 보안 체계를 대규모 언어 모델(LLM)을 활용한 선제적 방어 체계로 전환하고 있습니다. 사용자가 신고한 피싱 메일에만 의존하던 방식에서 벗어나, LLM의 문맥 이해 능력을 통해 수백만 건의 이메일 데이터에서 보이지 않던 위협 패턴을 식별하고 이를 탐지 모델 학습에 즉시 반영하는 것이 핵심입니다. 이러한 변화를 통해 위협이 실제 피해로 이어지기 전 미리 대응할 수 있는 능력을 확보하고, 특히 교묘한 '영업 제안(Sales Outreach)' 형태의 피싱 공격을 효과적으로 억제하는 성과를 거두고 있습니다. ### 기존 사후 대응 방식의 한계 * 전통적인 보안 시스템은 공격자가 이미 성공한 사례, 즉 사용자가 사후에 신고한 이메일(EML)을 분석하여 모델을 업데이트하는 방식에 의존했습니다. * 이는 '생존자 편향'의 문제와 같아서, 시스템을 이미 통과한 위협에 대해서는 효과적이지만 다음에 올 새로운 공격 기법에는 여전히 취약하다는 맹점이 있습니다. * 공격자의 기술은 끊임없이 진화하는 반면, 기존 방식은 공격자가 한 발 앞서 나가는 상황을 뒤늦게 쫓아가는 구조적 한계를 보입니다. ### LLM을 활용한 위협 지형 매핑 * LLM은 이메일의 비정형 데이터를 깊이 있게 분석하여 의도(intent), 긴급성(urgency), 기만성(deception)과 같은 복잡한 개념을 맥락적으로 이해합니다. * 과거에는 수백만 건의 메시지를 세부적으로 분류하는 것이 불가능했으나, 이제는 실시간에 가까운 속도로 위협 벡터를 자동 분류하고 태그를 부여할 수 있습니다. * 이를 통해 보안 분석가는 수동 조사 시간을 대폭 단축하고, 새로운 공격 패턴이 널리 확산되기 전에 이를 감지하여 맞춤형 머신러닝 모델을 구축할 수 있는 고해상도 신호를 얻게 됩니다. ### '영업 제안(Sales Outreach)' 피싱 탐지 강화 * B2B 비즈니스 메일을 모방하여 악성 링크 클릭이나 자격 증명 탈취를 유도하는 '영업 제안' 형태의 피싱이 주요 타겟으로 선정되었습니다. * LLM을 사용해 이러한 특성을 가진 메시지를 체계적으로 격리하고, 이를 바탕으로 실제 환경의 사례들을 포함하는 고정밀 말뭉치(Corpus)를 구축했습니다. * 단순한 정적 지표가 아닌 설득력 있는 프레임워크, 조작된 긴급성, 거래적 언어 등 언어적/구조적 특성을 추출하여 전용 감성 분석 모델을 학습시켰습니다. ### 언어 분석을 통한 보안 집행 및 최적화 * 학습된 모델은 메시지가 알려진 공격 패턴과 얼마나 일치하는지 나타내는 '위험 점수'를 산출하며, 이는 발신자 평판 및 링크 동작 등 기존 신호와 결합되어 최종 판단에 활용됩니다. * 공격자가 언어 스타일을 바꾸더라도 LLM이 새로운 변종을 발견하면 즉시 학습 파이프라인에 피드백되어 사용자의 신고 없이도 모델이 지속적으로 정교해집니다. * 이러한 시스템 도입 결과, 2025년 3분기 대비 4분기에는 사용자가 놓친 피싱 메일 신고 건수가 약 20.4% 감소했으며, 2026년 1분기에는 미탐지 신고가 기존의 1/3 수준으로 대폭 줄어드는 성과를 냈습니다. 사용자가 위협을 인지하고 신고하기를 기다리는 대신, LLM의 강력한 언어 이해 능력을 탐지 초기 단계(Discovery layer)에 배치하여 잠재적 위협을 먼저 찾아내는 것이 현대적인 이메일 보안의 핵심 전략입니다. 이를 통해 보안 팀은 리소스 소모를 줄이고, 사용자는 더욱 안전한 비즈니스 커뮤니케이션 환경을 보장받을 수 있습니다.

llm machine-learning nlp deep-learning+3