Building For The Future (새 탭에서 열림)

Building for the future 2026-05-07 Matthew Prince Michelle Zatlyn This afternoon, we sent the following email to our global team. One of our core values at Cloudflare is transparency, and we believe it's important that you hear this directly from us because it’s a major moment a…

ODW #5: 벡터 DB와 에이전트 스킬로 RAG 시스템 만들기 (새 탭에서 열림)

LY Corporation에서 진행된 이번 워크숍은 대량의 마크다운 문서를 효율적으로 검색하기 위해 ChromaDB 기반의 RAG(검색 증강 생성) 시스템을 구축하고, 이를 에이전트 스킬과 결합하여 개발자 경험을 혁신하는 방법을 다룹니다. 단순히 문서를 데이터베이스화하는 것을 넘어, AI 에이전트가 데이터의 구조와 활용법을 이해하도록 돕는 '스킬' 정의를 통해 검색 정확도와 업무 효율을 동시에 높이는 실무적인 접근법을 제시합니다. 이러한 시스템은 향후 자연어 기반의 문서 검색을 넘어 코드 생성 및 리뷰 프로세스에 지식 베이스를 직접 연결하는 핵심 도구로 활용될 수 있음을 시사합니다. ### 개발 생산성 향상을 위한 RAG의 도입 배경 * 대규모 앱 개발 과정에서 발생하는 빌드 에러, 아키텍처 가이드라인 준수 등의 문제를 해결하기 위해 방대한 문서가 존재하지만, 이를 검색하고 숙지하는 데 많은 리소스가 소모됩니다. * 동료 전문가에게 직접 질문하는 방식은 질문자와 답변자 모두의 시간을 소모하므로, 자연어로 대량의 데이터를 검색할 수 있는 자동화된 구조가 필요합니다. * RAG 기법을 도입하면 AI 에이전트에게 신뢰할 수 있는 외부 지식을 제공하여, 환각 현상을 줄이고 보다 정확한 응답을 생성할 수 있습니다. ### ChromaDB와 Swift Evolution을 활용한 데이터 적재 * 오픈소스 벡터 DB인 ChromaDB를 활용하여 로컬 환경에서 파이썬 및 자바스크립트 라이브러리를 통해 데이터를 간단히 적재하는 시스템을 구축했습니다. * 약 500여 건의 Swift 언어 사양 제안 문서(Swift Evolution)를 예제로 사용하였으며, 이는 ID(SE-XXXX), 구현 상태, 작성자 등 정형화된 메타데이터를 포함하고 있어 RAG 실습에 적합합니다. * 워크숍에서는 로컬 DB를 구축하고 MCP(Model Context Protocol) 도구를 통해 Claude Code와 같은 코딩 에이전트가 DB를 참조하도록 구성했습니다. ### 에이전트 스킬을 통한 지능형 검색 최적화 * 단순히 MCP 도구만 연결하면 에이전트가 DB의 컬렉션 명이나 메타데이터 구조를 몰라 검색에 어려움을 겪을 수 있으므로, 이를 보완하기 위한 '에이전트 스킬'을 정의했습니다. * 스킬 내부에 "Swift Evolution 지식을 검색하려면 ChromaDB의 특정 컬렉션을 참조한다"는 지침과 메타데이터 활용법을 명시하여 에이전트의 컨텍스트를 강화했습니다. * 이를 통해 사용자가 "SE-0500에 대해 조사해줘"라는 짧은 명령어만 입력해도 에이전트가 스스로 최적의 검색 파라미터를 설정하여 정확한 정보를 찾아내게 됩니다. ### RAG 시스템의 확장과 실무 적용 * 구축된 시스템은 단순한 문서 검색을 넘어, 코딩 에이전트가 스스로 지식을 검색해 코드를 생성하거나 특정 규칙에 기반하여 코드 리뷰를 수행하는 등 고도화된 업무에 활용 가능합니다. * 워크숍에서는 참가자들이 직접 마크다운 문서를 DB에 적재하고 스킬을 작성하는 실습을 진행했으며, 결과물을 사내 클라우드(Flava)에 배포하여 공유하는 방법까지 포함했습니다. * 1,000명 이상의 직원이 참여한 이번 사례는 이론적인 개념 전달과 실제 업무 문서를 활용한 실습의 균형이 AI 도구 내재화에 얼마나 중요한지를 보여줍니다. 방대한 내부 문서를 보유한 조직이라면 ChromaDB와 같은 가벼운 벡터 DB와 MCP 기반의 에이전트 스킬을 결합해 보시기 바랍니다. 초기 구축 비용 대비 개발자가 정보를 찾는 시간을 획기적으로 단축할 수 있으며, 특히 사내 코딩 표준이나 복잡한 도메인 지식을 AI 에이전트에게 즉시 학습시키는 가장 효율적인 경로가 될 것입니다.