rag

22 개의 포스트

엔터프라이즈 LLM 서비스 구축기 2: 에이전트 엔지니어링 (새 탭에서 열림)

엔터프라이즈 LLM 서비스를 구축함에 있어 복잡한 최신 기술을 무작정 도입하기보다, 서비스의 본질에 집중하여 불필요한 기술을 덜어내는 '소거법' 기반의 아키텍처를 설계했습니다. 실전 운영 결과, 파인 튜닝 대신 RAG를, 기계적 청킹 대신 '검색 후 자르기' 전략을, 그리고 복잡한 워크플로 대신 단순한 ReAct 구조를 채택함으로써 96.1%라는 높은 응답률과 시스템 안정성을 동시에 확보할 수 있었습니다. 이는 화려한 기술적 기교보다 제한된 비용과 속도 안에서 최적의 효율을 찾는 것이 실제 서비스 환경에서 더 효과적임을 입증합니다. ### 지식 주입 방식의 선택: 파인 튜닝 제외와 RAG 채택 * 파인 튜닝은 새로운 지식(Fact)을 주입하기보다 답변 스타일(Style)을 조정하는 데 훨씬 효율적이며, 지식 주입 정확도는 상대적으로 낮다는 연구 결과를 바탕으로 RAG를 주력 기술로 선정했습니다. * 제품 문서가 수시로 갱신되는 환경에서 파인 튜닝은 매번 데이터셋을 재구성하고 교차 검수해야 하는 막대한 유지보수 비용이 발생하지만, RAG는 원본 문서 업데이트만으로 즉각적인 대응이 가능합니다. * 실험 결과, 소규모 데이터셋을 통한 파인 튜닝은 모델이 이미 학습한 방대한 기존 지식의 벽을 넘지 못하고, 질문 형식이 조금만 바뀌어도 오답을 내놓는 한계를 보였습니다. ### 문맥 보존을 위한 전략: 청킹 없는 '검색 후 자르기' * 기존 RAG의 기계적 청킹(Pre-split)은 문맥 상실의 문제를 야기하므로, 각 문서의 주제가 명확하고 분량이 적은 서비스 특성을 고려해 문서를 통째로 임베딩하는 역발상을 적용했습니다. * 사용자 질문이 들어오면 관련 문서를 통째로 찾은 뒤, 마크다운 헤더(##) 기준으로 분할하고 경량 LLM 필터를 통해 질문과 관련 있는 섹션만 정밀하게 추출하는 '검색 후 자르기(Post-split)' 프로세스를 구축했습니다. * 이 방식은 질문의 맥락을 이미 알고 있는 상태에서 문서를 자르기 때문에, 정보의 희석 없이 모델에게 가장 필요한 핵심 조각들만 선별하여 전달할 수 있다는 장점이 있습니다. ### 효율적인 행동 구조: 복잡한 워크플로 대신 ReAct 방식 * '계획 후 실행(Plan-and-execute)'이나 '멀티 에이전트' 구조는 시스템 복잡도와 응답 지연(Latency)을 높일 뿐, 실제 답변 품질에서의 체감 성능 향상은 크지 않았습니다. * 특히 멀티 에이전트 구조는 전문가 간의 질문 배분 과정에서 추가적인 LLM 호출 비용이 발생하고, 여러 도메인이 섞인 질문에서 정보가 누락되는 취약점을 보였습니다. * 정제된 컨텍스트와 적절한 도구가 주어진다면 모델 스스로 추론하고 행동하는 ReAct 루틴만으로도 복잡한 논리적 순서를 충분히 구현할 수 있음을 확인하여, 시스템을 단순하게 유지했습니다. 성공적인 AI 에이전트 구축의 핵심은 유행하는 기술을 좇는 '덧셈'이 아니라, 서비스의 본질에 맞는 기술만 남기는 '뺄셈'에 있습니다. 현재 발생하는 답변 실패 원인의 절반 이상이 기술적 결함이 아닌 '참조 문서의 부재'에서 기인한다는 점을 고려할 때, 모델 아키텍처를 복잡하게 만들기보다는 AI가 학습하고 참조할 '교과서(원본 문서)'의 품질을 높이는 것이 성능 향상을 위한 가장 확실하고 실용적인 투자입니다.

AWS 주간 요약: OpenAI 파트너십, AWS Elemental Inference, Strands Labs 등 (2026년 3월 2일) | 아마존 웹 서비스 (새 탭에서 열림)

AWS와 OpenAI의 대규모 전략적 파트너십 체결을 중심으로, 2026년 AWS는 기업들이 생성형 AI 실험 단계를 넘어 실제 비즈니스 가치를 창출할 수 있도록 지원하는 AI-DLC(AI-Driven Lifecycle) 프레임워크와 에이전트 중심의 기술 생태계를 강화하고 있습니다. 이번 파트너십을 통해 Amazon Bedrock에 OpenAI 모델 기반의 상태 유지 런타임 환경이 도입되며, AWS 전용 가속기인 Trainium 칩의 대규모 공급과 함께 보안, 미디어 처리, 인프라 관리 전반에 걸친 지능형 자동화 서비스들이 대거 출시되었습니다. **Amazon과 OpenAI의 전략적 파트너십 및 기술 통합** * **대규모 투자 및 독점 공급:** Amazon은 OpenAI에 총 500억 달러를 투자하며, AWS는 OpenAI Frontier 모델의 독점적 제3자 클라우드 배포처로서 기업용 에이전트 구축 및 관리를 지원합니다. * **Stateful Runtime Environment:** Amazon Bedrock 내에 OpenAI 모델을 기반으로 한 '상태 유지 런타임'을 구축하여, 개발자가 컨텍스트를 유지하고 다양한 소프트웨어 도구 및 데이터 소스에 걸쳐 작업을 수행할 수 있도록 합니다. * **커스텀 실리콘 협력:** OpenAI는 향후 8년 동안 AWS의 차세대 AI 칩인 Trainium3 및 Trainium4를 포함하여 약 2기가와트(GW) 규모의 연산 용량을 사용하기로 합의했습니다. **생성형 AI 에이전트 및 개발 생산성 강화** * **Amazon Bedrock Projects API:** OpenAI 호환 API를 사용하여 생성형 AI 워크로드를 애플리케이션 단위로 격리하고, 액세스 제어 및 비용 추적, 관측성을 개선할 수 있습니다. * **Strands Labs 신설:** 에이전트 중심의 AI 프로젝트를 실험하기 위한 별도의 조직을 구성하고 Robots, AI Functions 등 실험적 프로젝트를 오픈소스로 공개했습니다. * **Amazon Location Service LLM Context:** 위치 기반 기능을 구현할 때 AI 에이전트(Claude Code 등)가 활용할 수 있는 최적화된 컨텍스트를 제공하여 개발 속도와 정확도를 높였습니다. **미디어 처리 및 보안 운영의 자동화** * **AWS Elemental Inference:** AI를 활용해 라이브 및 주문형 비디오를 틱톡, 인스타그램 릴스용 세로 형식으로 자동 크롭하며, 6~10초의 짧은 지연 시간 내에 하이라이트 클립을 추출합니다. * **AWS Security Hub Extended:** CrowdStrike, Okta 등 주요 보안 파트너 솔루션을 AWS 통합 빌링과 사전 협의된 가격으로 손쉽게 배포 및 통합 운영할 수 있는 풀스택 보안 서비스를 제공합니다. * **AWS AppConfig & New Relic 통합:** 기능 플래그(Feature Flag) 배포 시 New Relic의 워크플로 자동화와 연동하여 이상 감지 시 즉각적인 지능형 롤백을 수행, 장애 대응 시간을 초 단위로 단축합니다. **성공적인 AI 도입을 위한 실무적 제언** 단순한 AI 기술 실험을 넘어 실제 운영 환경에 적용하려는 기업은 AWS가 제시하는 **AI-DLC(AI-Driven Lifecycle) 프레임워크**를 적극 활용할 것을 권장합니다. 특히 에이전트 기반 시스템 구축 시 발생할 수 있는 환각 현상을 줄이기 위해 단순 RAG 방식과 GraphRAG 방식을 비교 분석하고, 새롭게 오픈소스화된 EKS Node Monitoring Agent 등을 통해 인프라 가시성을 확보하는 것이 중요합니다.

LLM을 활용한 인간 (새 탭에서 열림)

Dropbox Dash는 검색 관련성(Relevance)을 높이기 위해 소수의 고품질 인간 라벨링 데이터를 LLM을 통해 대규모로 증폭시키는 하이브리드 학습 전략을 채택하고 있습니다. 이 방식은 LLM을 '교사 모델'로 활용하여 수백만 개의 학습 데이터를 생성하고, 이를 통해 실시간 서비스에 적합한 효율적인 랭킹 모델을 구축하는 데 목적이 있습니다. 결과적으로 인간의 판단력과 AI의 확장성을 결합하여 RAG(검색 증강 생성) 시스템의 답변 품질을 결정짓는 핵심 요소인 검색 정확도를 극대화했습니다. ## Dash 검색 순위 모델과 학습 방식 * Dash는 수작업으로 조정된 규칙이 아닌, XGBoost와 같은 머신러닝 기법을 활용하여 검색 결과의 순위를 결정합니다. * 모델은 검색어와 문서 쌍에 대해 1점(관련 없음)부터 5점(매우 관련 있음)까지의 점수를 부여하는 관련성 라벨을 학습하며, 점수가 높은 문서가 상단에 배치되도록 가중치를 조정합니다. * 기업 내 수억 개의 문서 중 LLM이 답변 생성에 사용할 최적의 소수 문서만 선별해야 하므로, 랭킹 모델을 학습시키는 데이터의 품질이 RAG 시스템 전체의 성능을 좌우합니다. ## 기존 라벨링 방식의 한계와 LLM 도입의 필요성 * **사용자 행동 데이터:** 클릭이나 이탈 정보는 유용하지만, 기존 순위에 영향을 받거나 데이터가 불균등하게 분포되는 편향성 문제가 있습니다. * **인간 라벨링:** 숙련된 검토자가 직접 점수를 매기는 방식은 가장 정확하지만, 비용이 많이 들고 확장이 어려우며 기업의 민감한 내부 데이터를 외부 인력이 검토하기 어렵다는 보안 이슈가 존재합니다. * **LLM 평가:** LLM은 인간보다 비용이 저렴하고 일관성이 있으며, 대규모 후보군을 다국어로 신속하게 처리할 수 있습니다. 또한 정의된 규정 준수 범위 내에서 고객 콘텐츠를 분석할 수 있는 장점이 있습니다. ## 인간과 LLM의 협업을 통한 데이터 증폭 과정 * **검증 및 보정:** 먼저 인간 검토자가 소규모의 고품질 데이터셋을 라벨링합니다. 이 데이터는 LLM의 프롬프트와 매개변수를 미세 조정하고 성능을 검증하는 '골드 표준'으로 사용됩니다. * **데이터 증폭:** 성능이 검증된 LLM은 인간의 노력을 수백 배로 증폭시켜 수십만에서 수백만 개의 관련성 라벨을 생성합니다. 인간이 LLM을 가르치고, LLM이 대규모 학습 데이터를 생산하는 구조입니다. * **오프라인 학습과 온라인 서빙:** 실시간 검색 시 LLM을 직접 사용하면 지연 시간(Latency)과 비용 문제가 발생합니다. 따라서 LLM은 오프라인에서 '교사'로서 대량의 데이터를 생성하고, 실제 서비스에서는 이 데이터를 학습한 가볍고 빠른 모델(XGBoost 등)이 검색 순위를 계산합니다. ## 실용적인 결론 성공적인 AI 검색 시스템을 구축하기 위해서는 단순히 최신 LLM을 사용하는 것에 그치지 않고, 검색 모델의 학습 데이터를 어떻게 확보할 것인지가 중요합니다. Dropbox Dash의 사례처럼 **"인간의 가이드라인 → LLM의 대규모 라벨링 → 경량 모델의 학습 및 서빙"**으로 이어지는 파이프라인을 구축하면 품질, 비용, 속도라는 세 가지 토끼를 동시에 잡을 수 있습니다.

Software 3.0 시대, Harness를 통한 조직 생산성 저점 높이기 (새 탭에서 열림)

현재 많은 개발팀이 LLM을 도입하고 있지만, 실제 생산성은 엔지니어 개개인의 'LLM 리터러시'에 따라 극심한 격차를 보이고 있습니다. 이러한 '각자도생'의 한계를 극복하기 위해서는 LLM을 개인의 도구가 아닌 팀 차원의 시스템으로 편입시켜 전체적인 생산성의 저점(Floor)을 높이는 전략이 필요합니다. Claude Code와 같은 생태계를 활용해 팀의 노하우를 '실행 가능한 지식(Executable SSOT)'으로 자산화하는 것이 Software 3.0 시대의 핵심 경쟁력이 될 것입니다. **컨텍스트 엔지니어링과 LLM 리터러시의 격차** * 단순 질문을 반복하는 방식과 작업 전 팀의 가이드라인, 린트 규칙, 코드 패턴 등 '컨텍스트'를 먼저 주입하는 방식은 결과물에서 큰 차이를 만듭니다. * 이러한 생산성 격차는 코딩 실력이 아닌 LLM을 제어하는 노하우의 차이이며, 이를 개인의 센스에만 맡기는 것은 조직적 손실입니다. * 팀 전체의 역량을 상향 평준화하기 위해서는 누구나 최적의 맥락 위에서 작업할 수 있도록 돕는 시스템적 장치(Harness)가 필요합니다. **Claude Code와 마찰 없는 워크플로우 이식** * 브라우저 기반 챗봇으로 코드를 복사·붙여넣기 하는 과정에서 발생하는 문맥 교환(Context Switching) 비용을 최소화해야 합니다. * Claude Code가 제공하는 TUI(Terminal User Interface) 환경은 터미널 안에서 자연어와 코드가 끊김 없이 섞이는 매끄러운 경험을 제공합니다. * 이러한 낮은 진입 장벽은 설계된 AI 워크플로우를 팀원들에게 저항감 없이 전파할 수 있는 기반이 됩니다. **실행 가능한 진실의 원천(Executable SSOT)** * 기존의 위키나 노션 문서는 작성 즉시 낡은 정보가 되지만, 플러그인 형태의 지식은 사람이 읽는 매뉴얼인 동시에 LLM이 즉시 실행하는 시스템 프롬프트가 됩니다. * RAG(검색 증강 생성) 방식은 내부 로직의 불투명성으로 인해 어떤 컨텍스트가 주입될지 예측하기 어렵다는 단점이 있습니다. * 반면 플러그인 방식은 명시적인 코드로서 개발자가 주입되는 맥락을 100% 통제할 수 있어 높은 예측 가능성과 신뢰성을 제공합니다. **계층화된 아키텍처를 통한 거버넌스와 전파** * 지식을 전사 공통(Global), 팀/비즈니스 도메인(Domain), 특정 프로젝트(Local)의 3단계 레이어로 계층화하여 관리함으로써 지식의 파편화를 방지합니다. * `/new-feature`와 같은 슬래시 커맨드를 통해 숙련된 엔지니어의 노하우(이슈 발급, 브랜치 생성, 구현 계획 수립 등)를 모든 팀원에게 즉시 배포할 수 있습니다. * 단순한 린터를 넘어, 메인 브랜치 커밋 시도를 감지하고 정책에 맞는 브랜치 생성을 가이드하는 등 AI 에이전트 기반의 강력한 거버넌스 구현이 가능합니다. **엔지니어링의 본질: 플랫폼 엔지니어링과 데이터 플라이휠** * Software 1.0 시대에 공통 라이브러리로 중복 작업을 줄였듯, Software 3.0에서는 AI 워크플로우 플러그인을 통해 팀의 생산성을 최적화해야 합니다. * 규격화된 플러그인을 통해 축적된 양질의 데이터는 향후 도메인 특화 모델(sLLM)을 파인튜닝하고 평가하는 기반이 됩니다. * 사용자가 많아질수록 데이터가 쌓이고 모델이 정교해지는 '데이터 플라이휠' 구조를 구축하는 것이 AI-Native 조직의 최종 목표입니다. 이제 LLM 활용 능력은 개인의 역량을 넘어 팀이 설계하고 배포해야 할 시스템의 영역입니다. Claude Code의 마켓플레이스와 같은 도구를 활용해 팀 내에 흩어진 암묵지를 명시적인 워크플로우로 엮어내고, 우리 조직에 최적화된 '시스템 하네스'를 구축하는 것부터 시작해 보기를 추천합니다.

Microsoft Learn MCP 서버 구축기 (새 탭에서 열림)

Microsoft Learn MCP(Model Context Protocol) 서버는 AI 에이전트가 신뢰할 수 있는 최신 기술 문서를 실시간으로 활용할 수 있도록 설계된 원격 서버입니다. 기존의 복잡한 API 통합 방식 대신 표준화된 프로토콜을 채택하여 에이전트가 런타임에 도구를 스스로 발견하고 실행하게 함으로써, 개발자가 브라우저 이동 없이 개발 환경 내에서 정확한 기술 가이드를 받을 수 있도록 지원합니다. ### MCP 도입 배경과 서버 방식의 이점 * **에이전트 네이티브 표준:** MCP는 에이전트가 기능을 실시간으로 협상하고 결과를 스트리밍하는 표준을 제공하여, 수동 검색이나 별도의 임베딩 관리 없이도 최신 데이터를 활용할 수 있게 합니다. * **통합의 단순화:** 클라이언트가 개별 API의 인증, 요청 형식, 에러 처리를 직접 구현할 필요 없이 MCP 호환 에이전트라면 서버 연결만으로 도구 스키마를 자동 인식하고 사용할 수 있습니다. * **지식 서비스의 재사용:** "Ask Learn" 서비스와 동일한 벡터 저장소 및 지식 서비스를 백엔드로 사용하여, RAG(검색 증강 생성) 기반의 높은 정확도와 최신성을 보장합니다. ### 핵심 도구 및 아키텍처 * **제공 도구:** 문서 제목과 URL을 찾는 `microsoft_docs_search`, 전체 문서 내용을 가져오는 `microsoft_docs_fetch`, 언어별 코드 예제 검색에 최적화된 `microsoft_code_sample_search`를 제공합니다. * **시스템 구조:** Azure App Service에 호스트된 C# SDK 기반의 원격 서버로 운영되며, Streamable HTTP Transport를 통해 클라이언트와 통신합니다. * **에이전트 워크플로우 최적화:** LLM 에이전트가 익숙한 '검색 후 읽기' 패턴을 따를 수 있도록 내부 API의 복잡한 파라미터를 직관적인 도구 운영 방식으로 압축하여 제공합니다. ### 운영 및 설계상의 주요 교훈 * **도구 설명이 곧 사용자 경험:** AI 모델에게 도구와 파라미터 설명은 매뉴얼과 같습니다. 단어 선택의 미세한 차이가 도구 활성화율에 직접적인 영향을 미치므로 데이터 기반의 지속적인 최적화가 필요합니다. * **도구 조합의 시너지:** 검색 도구로 최적의 일치 항목을 찾은 후 전체 문서를 읽어 답변의 근거를 강화하는 '도구 조합' 방식을 명시적으로 가이드하여 인용 품질을 개선했습니다. * **분산 시스템으로서의 운영:** 공용 MCP 서버는 다중 지역 배포, 동적 확장, CORS 관리 등 일반적인 상태 비저장(Stateless) 서비스와 동일한 운영상의 복잡성을 가집니다. * **방어적 스키마 진화:** 동적 발견 구조임에도 불구하고 파라미터를 하드코딩하는 클라이언트를 위해, 명칭 변경 시 기존 이름을 병행 지원하는 유예 기간을 두는 등 안정적인 서비스 진화 전략이 중요합니다. ### 실용적인 활용 및 기대 효과 개발자는 이제 브라우저를 열고 검색 결과를 훑어보는 번거로운 과정 대신, 선호하는 AI 에이전트에 Learn MCP 서버를 연결하여 Microsoft 기술 문서를 코드 맥락에 즉시 적용할 수 있습니다. 이는 개발 워크플로우 내에서 정확한 공식 문서를 기반으로 한 자동화된 코딩 지원과 문제 해결을 가능하게 합니다.

AI 도구가 접근성을 높 (새 탭에서 열림)

구글 리서치는 장애인 커뮤니티와의 긴밀한 협력을 통해 사용자의 고유한 요구에 실시간으로 적응하는 '기본 적응형 인터페이스(Natively Adaptive Interfaces, NAI)' 프레임워크를 공개했습니다. NAI는 정적인 디자인에서 벗어나 멀티모달 AI 에이전트를 활용함으로써, 디지털 환경을 단순한 도구가 아닌 사용자의 맥락을 이해하는 능동적인 협업자로 변모시키는 것을 핵심으로 합니다. 이를 통해 기술이 사용자의 특성에 맞춰 스스로 형태를 바꾸는 진정한 의미의 유니버설 디자인을 구현하고, 기능 출시와 보조 기술 지원 사이의 시차인 '접근성 격차'를 해소하고자 합니다. **공동 설계: "우리 없이 우리에 대해 논하지 말라"** * 장애인 커뮤니티의 오랜 원칙인 "Nothing About Us Without Us"를 개발 생애 주기 전반에 도입하여 실질적인 생활 경험을 기술의 중심에 두었습니다. * RIT/NTID, The Arc, RNID, Team Gleason과 같은 전문 단체들과 협력하여 다양한 의사소통 방식을 이해하는 AI 도구를 공동 개발하고 있습니다. * 이러한 협력 모델은 단순히 도구를 만드는 것을 넘어, 장애인 커뮤니티 내의 경제적 역량 강화와 고용 기회 창출로 이어지는 선순환 구조를 지향합니다. **에이전트 중심의 다중 시스템 아키텍처** * 복잡한 메뉴를 사용자가 직접 탐색하는 대신, 중앙 관리자인 '오케스트레이터(Orchestrator)'가 사용자의 문맥을 파악하고 적절한 하위 에이전트에게 작업을 할당합니다. * **요약 에이전트(Summarization Agent):** 방대한 정보를 분석하여 사용자가 이해하기 쉬운 핵심 통찰로 변환합니다. * **설정 에이전트(Settings Agent):** 텍스트 크기 조절 등 UI 요소를 실시간으로 동적 변경하여 최적의 가독성을 제공합니다. * 이를 통해 사용자는 특정 기능을 찾기 위해 버튼을 헤맬 필요 없이, 시스템과 직관적으로 상호작용하며 문제를 해결할 수 있습니다. **멀티모달 유창성을 활용한 주요 프로토타입** * 제미나이(Gemini) 모델의 시각, 음성, 텍스트 동시 처리 능력을 활용하여 주변 환경을 실시간으로 설명하고 질의응답을 주고받는 기능을 구현했습니다. * **StreetReaderAI:** 시각 장애인을 위한 가상 가이드로, 과거 시각 프레임을 기억하여 "방금 지나친 버스 정류장이 어디인가요?"와 같은 질문에 "뒤로 12미터 지점에 있습니다"라고 구체적으로 답변합니다. * **MAVP (Multimodal Agent Video Player):** 정적인 음성 해설을 넘어, 검색 증강 생성(RAG) 기술을 통해 사용자가 영상 속 특정 세부 사항(예: 등장인물의 의상)을 질문하면 실시간으로 응답하는 양방향 비디오 시청 경험을 제공합니다. * **Grammar Laboratory:** 미국 수어(ASL)와 영어를 동시에 지원하는 이중 언어 AI 학습 플랫폼으로, 사용자의 학습 패턴에 맞춘 맞춤형 콘텐츠와 피드백을 제공합니다. **유니버설 디자인의 확장: 커브 컷 효과** * 장애인을 위해 설계된 기능이 결과적으로 모든 사용자의 편의를 증진하는 '커브 컷 효과(Curb-cut effect)'를 강조합니다. * 시각 장애인을 위해 개발된 음성 인터페이스가 멀티태스킹이 필요한 비장애인에게도 유용하게 쓰이듯, NAI 프레임워크는 모든 사용자에게 더 나은 디지털 경험을 제공합니다. * 학습 장애를 지원하기 위한 요약 및 합성 도구는 복잡한 정보를 빠르게 파악해야 하는 모든 현대인에게 보편적인 가치를 제공하게 됩니다. AI 기술은 이제 단순한 접근성 지원 도구를 넘어, 모든 사람의 고유한 개성과 상황에 맞춰 인터페이스가 스스로 진화하는 '개인화된 유니버설 디자인' 시대를 열고 있습니다. 개발자와 디자이너들은 설계 초기 단계부터 장애인 사용자를 파트너로 참여시키고, 멀티모달 AI를 활용해 정적인 UI를 동적인 에이전트 시스템으로 전환함으로써 더욱 포용적인 디지털 세상을 구축할 수 있습니다.

엔지니어링 VP 조 (새 탭에서 열림)

Dropbox Dash는 파편화된 기업 내 데이터를 통합하여 사용자에게 최적화된 답변을 제공하기 위해 인덱스 기반의 '컨텍스트 엔진(Context Engine)'과 지식 그래프를 핵심 기술로 활용합니다. 단순히 데이터를 검색하는 것을 넘어 멀티모달 이해와 데이터 간의 관계 모델링을 통해 고도화된 업무 맥락을 파악하며, MCP(Model Context Protocol)가 가진 성능적 한계를 독자적인 최적화 기법으로 해결했습니다. 이를 통해 보안과 권한 관리를 유지하면서도 매우 빠르고 정확한 에이전트 경험을 제공하는 것이 기술적 결론입니다. ### 컨텍스트 엔진의 구조와 데이터 처리 * **커넥터와 정규화**: 수많은 서드파티 앱의 API 제약과 권한 체계(ACL)를 처리하는 맞춤형 크롤러를 통해 데이터를 수집하고, 이를 마크다운 형식으로 정규화하여 관리합니다. * **멀티모달 콘텐츠 이해**: 단순 텍스트 추출을 넘어 이미지(CLIP 및 멀티모달 모델), 오디오(전사), 비디오(장면 추출 및 이해)에 대한 심층 분석을 수행하여 인덱싱합니다. * **지식 그래프 모델링**: 문서, 회의, 인물 간의 관계를 그래프 형태로 연결하여 단순 검색 이상의 맥락 정보를 생성하며, 이를 통해 앱 간 경계를 넘나드는 지능형 정보를 제공합니다. * **하이브리드 검색**: 어휘 검색을 위한 BM25와 의미론적 검색을 위한 밀집 벡터(Dense Vector) 저장소를 동시에 사용하여 검색 품질을 극대화하고, 최종 결과에 대해 개인화된 랭킹을 적용합니다. ### 인덱스 기반 검색(Indexed Retrieval)의 채택 이유 * **페더레이션 방식과의 차이**: 실시간으로 외부 API를 호출하는 페더레이션 방식은 구현이 쉽고 데이터가 신선하지만, 속도가 느리고 회사 전체 공유 데이터에 접근하기 어렵다는 단점이 있습니다. * **성능과 실험 가능성**: 인덱스 기반 방식은 데이터를 미리 처리해두기 때문에 응답 속도가 매우 빠르며, 오프라인 환경에서 다양한 랭킹 실험을 통해 검색 정확도(Recall)를 지속적으로 개선할 수 있습니다. * **구축 비용 감수**: 높은 저장 비용과 맞춤형 커넥터 개발의 복잡성에도 불구하고, 풍부한 데이터 세트 구축과 정교한 검색 품질을 위해 인덱스 기반 접근법을 선택했습니다. ### MCP의 한계 극복과 에이전트 최적화 * **컨텍스트 부패 방지**: MCP 도구 정의가 컨텍스트 창(Context Window)을 과도하게 점유하여 발생하는 성능 저하 문제를 해결하기 위해 약 10만 토큰 수준으로 컨텍스트를 제한하고 관리합니다. * **응답 속도 개선**: 일반적인 MCP 에이전트가 여러 도구를 호출할 때 발생하는 지연 시간(최대 45초)을 줄이기 위해, 원본 인덱스에 직접 접근하여 수 초 내에 결과를 반환하도록 설계했습니다. * **슈퍼 툴(Super Tool) 개념**: 개별 앱마다 도구를 정의하는 대신, 전체 인덱스를 아우르는 '슈퍼 툴' 인터페이스를 구축하여 모델이 추론해야 할 도구의 개수를 줄이고 효율성을 높였습니다. 기업용 AI 에이전트를 구축할 때는 실시간 API 호출 방식보다는 비용이 들더라도 데이터를 직접 인덱싱하고 지식 그래프화하는 것이 검색 품질과 속도 면에서 유리합니다. 특히 MCP와 같은 최신 프로토콜을 도입할 때는 도구 정의가 컨텍스트 창을 잠식하지 않도록 '슈퍼 툴' 형태의 추상화 계층을 고려하는 것이 실무적으로 권장됩니다.

넷플릭스 그래프 (새 탭에서 열림)

넷플릭스는 기업 내 복잡한 데이터 생태계를 효율적으로 탐색하기 위해 기존의 구조화된 쿼리 언어(DSL) 방식에서 생성형 AI 기반의 자연어 검색으로 진화하고 있습니다. 대규모 언어 모델(LLM)을 활용하여 사용자의 모호한 질문을 정확한 필터 문구로 변환함으로써 기술적 장벽을 낮추고 업무 효율성을 극대화하는 것이 이번 프로젝트의 핵심입니다. 이를 통해 사용자 의도를 정확히 반영하면서도 기존 시스템의 안정성을 유지하는 신뢰 중심의 검색 플랫폼을 구축하고자 합니다. ## 자연어 검색 도입 배경과 비즈니스 요구사항 * **기존 방식의 한계:** 사용자들은 수백 개의 필드가 포함된 복잡한 UI에서 필터를 수동으로 설정하거나 특정 DSL(Domain Specific Language)을 학습해야 하는 번거로움을 겪었습니다. * **사용자 경험 개선:** 기술적인 구조가 아닌 일상적인 언어(예: "90년대 미국 로봇 영화")로 데이터를 즉시 찾을 수 있게 하여 검색 과정의 마찰을 줄이고자 합니다. * **시스템 보완 전략:** 기존 애플리케이션을 완전히 대체하는 것이 아니라, 자연어를 DSL로 변환하는 기능을 추가하여 기존 검색 인프라에 RAG(검색 증강 생성) 기능을 보강하는 방향을 선택했습니다. ## Text-to-Query 변환의 세 가지 핵심 기준 * **구문적 정확성 (Syntactic):** 생성된 문장이 Graph Search Filter DSL의 문법 규칙을 완벽하게 따라야 하며, 파싱이 가능한 형태여야 합니다. * **의미적 정확성 (Semantic):** 인덱스에 실제로 존재하는 필드만 사용해야 하며, 데이터 타입에 맞는 비교 연산자를 사용하고 '통제된 어휘(Controlled Vocabulary)'의 허용 범위를 준수하여 환각(Hallucination) 현상을 방지해야 합니다. * **화용적 정확성 (Pragmatic):** 기술적으로 완벽한 쿼리일지라도, 그것이 사용자가 실제로 질문한 의도와 목적을 정확하게 담아내야 합니다. ## 컨텍스트 엔지니어링을 통한 성능 최적화 * **메타데이터 활용:** GraphQL 스키마에서 추출한 필드 설명, 타입 정보 등을 LLM의 컨텍스트로 제공하여 모델이 데이터 구조를 이해하도록 돕습니다. * **통제된 어휘(Controlled Vocabulary) 관리:** 국가명이나 장르와 같이 정해진 값의 목록이 있는 경우, 이를 메타데이터에 포함하여 LLM이 유효한 값 내에서만 쿼리를 생성하도록 유도합니다. * **확장성 문제 해결:** 수백 개의 필드와 수천 개의 유효값을 가진 대규모 인덱스의 경우, 모든 정보를 프롬프트에 넣으면 지연 시간이 늘어나고 정확도가 떨어지므로 필요한 정보만 선별하여 제공하는 정교한 컨텍스트 구성 전략을 사용합니다. 넷플릭스의 사례는 복잡한 기업용 데이터 검색 시스템에서 LLM을 직접적인 해답 제공자가 아닌, 검증된 기존 DSL을 생성하는 '번역기'로 활용함으로써 데이터의 정확성과 시스템의 신뢰성을 동시에 확보할 수 있음을 보여줍니다. 전문적인 데이터 탐색이 필요한 도메인일수록 이러한 단계적 AI 통합 접근 방식이 효과적입니다.

개발자는 AI에게 대체될 것인가 (새 탭에서 열림)

현재의 AI 열풍은 막대한 자본이 투입된 버블의 성격을 띠고 있지만, 장기적으로는 개발자의 업무를 근본적으로 재정의하는 도구로 자리 잡을 것입니다. 개발자는 단순히 코드를 생산하는 역할에서 벗어나, 어떤 업무를 AI에게 '추상화(위임)'하고 어떤 핵심 판단력을 유지할지 결정하는 설계자이자 디렉터의 역량을 요구받게 됩니다. 결국 AI 시대의 생존은 기술적 위임의 경계를 설정하고 시스템의 복잡성을 관리하는 '추상화 능력'에 달려 있습니다. ## AI 하이프와 경제적 불균형의 실체 * **아마라의 법칙과 버블:** 기술의 효과는 단기적으로 과대평가되는 경향이 있으며, 현재 AI 시장은 투자 대비 매출 비율이 16:1(설비투자 5,600억 달러 대비 매출 350억 달러)에 달할 정도로 극심한 불균형 상태입니다. * **실질 수익의 부재:** 생성형 AI 도입 프로젝트의 약 95%가 실패하거나 뚜렷한 효율 개선을 보이지 못하고 있으며, 빅테크의 매출조차 상당 부분 내부 거래에 의존하고 있는 실정입니다. * **인력 감축의 역설:** 현재의 개발자 감원은 AI가 업무를 대체했기 때문이라기보다, 막대한 AI 투자 비용을 충당하기 위한 기업의 비용 절감 전략에서 기인한 측면이 큽니다. ## 제번스 패러독스와 직무의 재정의 * **수요의 폭발:** 에어컨 보급률이 높아질수록 관련 산업이 커지듯, AI로 코딩의 문턱이 낮아지면 소프트웨어에 대한 전체 수요와 활용처는 오히려 기하급수적으로 늘어날 것입니다. * **도구로서의 AI:** 과거 게임 엔진이 소규모 팀에게 프로급 역량을 부여했듯, AI는 개발자를 보조하는 강력한 '파워 툴'이 되어 상위 실력자의 생산성을 극대화합니다. * **역할의 변화:** 개발자의 정체성은 코드 작성자에서 '코드 크리에이티브 디렉터'로 변모하며, 시스템 설계, 에이전트 지휘, 결과물 검증이 업무의 중심이 됩니다. ## 위임의 사분면과 추상화의 본질 * **위임의 기준:** '위임하기 쉬운가(기술적 난이도)'는 모델의 발전에 따라 계속 변하는 일시적인 경계일 뿐이며, 중요한 것은 '위임해야 하는가(책임과 판단)'라는 가치 판단의 축입니다. * **추상화로서의 위임:** AI에게 업무를 맡기는 것은 프로그래밍의 '추상화'와 같습니다. 이는 세부 사항을 숨기고 더 이상 신경 쓰지 않겠다는 선언이며, 복잡성을 미래로 이동시키는 레버리지 역할을 합니다. * **유형별 위임 전략:** 단순 CRUD나 보일러플레이트 코드, 테스트 케이스 등 잘 정의된 문제는 AI에게 맡기되, 아키텍처 결정이나 보안 정책, 법규 대응처럼 인간의 판단이 필수적인 영역은 분리해야 합니다. ## 잘못된 추상화와 미래의 리스크 * **추상화의 붕괴:** 트래픽 급증, 법률 개정(GDPR 등), 제로데이 보안 취약점 같은 예외 상황이 발생하면 AI에게 위임했던 '추상화된 업무'가 한꺼번에 무너질 수 있습니다. * **시니어의 역할:** 시스템의 근본이 흔들릴 때 이를 해결할 수 있는 능력은 결국 풍부한 경험을 가진 시니어 개발자의 몫이며, AI 결과물을 맹목적으로 수용할 경우 추상화가 없는 것보다 더 큰 재앙을 초래할 수 있습니다. * **지속 가능한 리팩토링:** 개발자는 AI에게 어떤 컨텍스트를 제공하고 어떤 부분을 직접 통제할지 업무 프로세스를 끊임없이 리팩토링하며 '좋은 추상화'를 구축해야 합니다. 성공적인 AI 활용을 위해서는 AI를 단순한 대체재가 아닌, 복잡성을 관리하는 추상화 도구로 바라봐야 합니다. 기술 발전 속도에 일희일비하기보다, 기술이 해결할 수 없는 '비즈니스 임팩트'와 '시스템의 안정성'에 대한 인간의 판단력을 고도화하는 것이 AI 시대 개발자의 핵심 경쟁력이 될 것입니다.

엔터프라이즈 LLM 서비스 구축기 1: 컨텍스트 엔지니어링 (새 탭에서 열림)

대규모 엔터프라이즈 환경에서 LLM 서비스를 구축할 때는 정교한 지시어(프롬프트 엔지니어링)보다 AI에게 필요한 정보만 선별해 제공하는 '컨텍스트 엔지니어링'이 더욱 중요합니다. LY Corporation은 260개가 넘는 API와 방대한 문서를 다루는 클라우드 AI 어시스턴트를 개발하며, 컨텍스트의 양이 늘어날수록 모델의 추론 성능이 하락하고 환각 현상이 발생하는 문제를 확인했습니다. 이를 해결하기 위해 사용자의 의도에 맞춰 필요한 도구와 가이드라인만 실시간으로 주입하는 '점진적 공개' 전략과 시스템 프롬프트의 충돌을 방지하는 '모의 도구 메시지' 기법을 도입하여 성능과 정확도를 동시에 확보했습니다. ### 컨텍스트 과부하와 성능의 상관관계 * **정보량과 성능의 반비례**: 최신 LLM은 수십만 토큰의 컨텍스트 윈도우를 지원하지만, 입력 길이가 길어질수록 핵심 정보를 찾는 능력이 최대 85%까지 급격히 하락합니다. * **노이즈로 인한 판단력 저하**: 질문과 유사해 보이지만 실제로는 관계없는 정보(노이즈)가 섞이면 모델이 당당하게 가짜 정보를 생성하는 환각 현상이 빈번해집니다. * **토큰 소모 효율성**: LLM은 이전 대화를 기억하지 못하는 스테이트리스(stateless) 구조이므로, 대화가 길어지고 API의 JSON 응답이 누적되면 64K 토큰 정도의 용량은 순식간에 소모되어 비용과 성능에 악영향을 줍니다. ### 도구 선별을 통한 컨텍스트 절약 * **선별적 로드**: 260개의 모든 API 도구를 한 번에 컨텍스트에 올리지 않고, 사용자의 질문에서 제품군(예: Redis, Kubernetes)을 먼저 식별합니다. * **도구 최적화**: 사용자가 특정 제품에 대해 물을 때만 관련된 소수의 도구(API)만 선별하여 제공함으로써 모델의 인지 부하를 획기적으로 줄입니다. ### 응답 가이드라인과 점진적 공개 전략 * **상황별 지침 주입**: "리소스 변경 시 UI 안내 우선"과 같이 특정 조건에서만 필요한 운영 지침을 '응답 가이드라인'으로 정의하고, 질문의 성격에 따라 필요한 시점에만 선택적으로 로드합니다. * **시스템 프롬프트와 가이드라인의 분리**: 모든 상황에 적용되는 '대원칙'은 시스템 프롬프트에, 특정 상황의 '행동 절차'는 가이드라인에 배치하여 관리 효율을 높입니다. ### 모의 도구 메시지(ToolMessage)를 활용한 환각 방지 * **프롬프트 충돌 문제**: 새로운 가이드라인을 단순히 시스템 프롬프트 뒤에 추가할 경우, 모델이 기존의 대원칙(예: "반드시 검색 결과로만 답변하라")을 무시하고 가이드라인에만 매몰되어 환각을 일으키는 현상이 발생했습니다. * **도구 메시지 전략**: 가이드라인을 시스템 프롬프트에 넣는 대신, 마치 검색 도구를 실행해서 얻은 결과값인 것처럼 '도구 메시지(ToolMessage)' 형식으로 주입합니다. * **전략의 효과**: 이 방식을 통해 LLM은 시스템 프롬프트의 대원칙을 준수하면서도, 주입된 가이드라인을 도구로부터 얻은 최신 정보로 인식하여 훨씬 정확하고 일관된 답변을 생성하게 됩니다. 엔터프라이즈 LLM 서비스의 핵심은 모델의 지능을 믿고 모든 데이터를 던져주는 것이 아니라, 모델이 가장 똑똑하게 판단할 수 있도록 최적의 정보만 정교하게 큐레이션하여 전달하는 설계 능력에 있습니다. 특히 복잡한 비즈니스 로직이나 사내 고유 지식을 반영해야 할 때는 시스템 프롬프트를 비대하게 만드는 대신, 도구 메시지나 동적 컨텍스트 주입 기술을 활용해 모델의 판단 체계를 보호하는 것이 실질적인 해결책이 됩니다.

구글 리서치 2 (새 탭에서 열림)

2025년 구글 리서치는 기초 연구가 실제 제품과 사회적 가치로 연결되는 '혁신의 마법 주기(Magic Cycle)'를 가속화하며 생성형 AI, 과학적 발견, 양자 컴퓨팅 분야에서 기념비적인 성과를 거두었습니다. 제미나이 3(Gemini 3)로 대표되는 모델의 효율성과 사실성 개선은 물론, 스스로 도구를 사용하는 에이전트 모델과 질병 치료를 위한 바이오 AI 기술을 통해 기술적 한계를 한 단계 더 확장했습니다. 이러한 연구 결과는 단순한 기술 진보를 넘어 기후 변화 대응과 교육 등 인류 공통의 과제를 해결하는 데 실질적인 기여를 하고 있습니다. **생성형 모델의 효율성 및 신뢰성 고도화** * **추론 효율성 최적화:** '투기적 디코딩(Speculative decoding)'과 가상 머신 작업 수명을 예측하는 'LAVA' 알고리즘을 도입하여 대규모 클라우드 데이터 센터의 리소스 효율성과 비용 절감을 실현했습니다. * **사실성(Factuality) 강화:** 2021년부터 이어진 LLM 사실성 연구를 집대성하여 제미나이 3를 역대 가장 사실적인 모델로 구축했으며, FACTS 벤치마크 등을 통해 모델의 정보 근거 제시 능력을 입증했습니다. * **다국어 및 다문화 대응:** 오픈 모델인 '젬마(Gemma)'를 140개 이상의 언어로 확장하고, 문화적 맥락을 이해하는 'TUNA' 분류 체계와 'Amplify' 이니셔티브를 통해 글로벌 사용자에게 최적화된 AI 경험을 제공합니다. **생성형 UI와 지능형 에이전트의 등장** * **인터랙티브 인터페이스:** 사용자의 프롬프트에 따라 웹페이지, 게임, 도구 등의 시각적 인터페이스를 실시간으로 생성하는 '생성형 UI'를 제미나이 3에 도입했습니다. * **에이전트 기능(Agentic AI):** 단순 응답을 넘어 복잡한 작업을 수행하는 '프로젝트 자비스(Project Jarvis)'와 웹 브라우징 에이전트를 통해 사용자의 일상 업무를 자동화하는 능력을 선보였습니다. * **코드 및 추론 능력:** 고도화된 추론 아키텍처를 통해 소프트웨어 엔지니어링 성능을 비약적으로 향상시켰으며, 이는 구글 내부 코드의 25% 이상이 AI에 의해 생성되는 결과로 이어졌습니다. **과학적 혁신과 헬스케어의 진보** * **생물학적 발견:** 단백질 구조 예측을 넘어 분자 상호작용을 모델링하는 'AlphaFold 3'와 새로운 단백질을 설계하는 'AlphaProteo'를 통해 신약 개발과 질병 이해의 속도를 높였습니다. * **의료 특화 모델:** 'Med-Gemini'와 같은 의료 전용 모델을 개발하여 흉부 엑스레이 분석, 유전체 데이터 해석 등 전문적인 의료 진단 보조 도구로서의 가능성을 확인했습니다. * **뇌 과학 연구:** 하버드 대학과의 협력을 통해 인간 대뇌 피질의 시냅스 수준 지도를 제작하는 등 신경과학 분야에서도 전례 없는 성과를 냈습니다. **양자 컴퓨팅과 지구 과학을 통한 미래 대비** * **양자 우위와 실용화:** 양자 오류 정정 기술의 혁신을 통해 실제 문제 해결에 활용 가능한 양자 컴퓨팅 시대를 앞당겼습니다. * **기후 및 환경 대응:** 산불을 실시간으로 추적하는 'FireSat' 위성 네트워크와 비행운(Contrails) 감소 연구 등을 통해 기후 위기 대응을 위한 구체적인 AI 솔루션을 제시했습니다. * **책임감 있는 AI:** 콘텐츠의 출처를 밝히는 'SynthID' 워터마킹 기술을 텍스트와 비디오로 확대 적용하여 AI 생성 콘텐츠의 투명성과 안전성을 강화했습니다. 구글의 2025년 성과는 AI가 단순한 보조 도구를 넘어 과학 연구의 속도를 높이고 복잡한 사회 문제를 해결하는 강력한 에이전트로 진화했음을 보여줍니다. 기업과 연구자는 이제 단순한 챗봇 구현을 넘어, 특정 도메인에 특화된 에이전트 모델과 생성형 UI를 활용한 새로운 사용자 경험 설계에 집중해야 할 시점입니다.

혁신에 주목: 아프리카 (새 탭에서 열림)

구글 리서치는 아프리카 전역의 데이터 과학 커뮤니티와 협력하여 현지의 시급한 의료 과제를 해결하기 위한 'Data Science for Health Ideathon'을 개최했습니다. 이 대회는 MedGemma, MedSigLIP 등 구글의 개방형 의료 AI 모델을 활용해 자궁경부암 검진, 모성 건강 지원 등 아프리카 보건 시스템에 실질적인 변화를 가져올 수 있는 솔루션을 개발하는 데 중점을 두었습니다. 최종 선정된 팀들은 구글의 기술 자원과 전문가 멘토링을 통해 아이디어를 구체적인 프로토타입으로 구현하며 지역 맞춤형 AI 혁신의 가능성을 증명했습니다. **협력적 의료 혁신과 기술적 기반** * 르완다 키갈리에서 열린 'Deep Learning Indaba' 컨퍼런스를 기점으로 아프리카 AI 및 의료 커뮤니티 간의 역량 강화를 목표로 시작되었습니다. * 참가자들에게는 MedGemma(의료 LLM), TxGemma(치료제 개발 모델), MedSigLIP(의료 영상 분석 모델) 등 구글의 최신 보건 AI 모델이 제공되었습니다. * 프로젝트 수행을 위해 Google Cloud Vertex AI 컴퓨팅 크레딧과 상세 기술 문서, 구글 DeepMind 연구진의 기술 멘토링이 단계별로 지원되었습니다. **자궁경부암 및 모성 건강을 위한 AI 솔루션** * **Dawa Health (1위):** WhatsApp으로 업로드된 질확대경 영상을 MedSigLIP 기반 분류기로 실시간 분석하여 암 징후를 식별합니다. 여기에 Gemini RAG(검색 증강 생성)를 결합해 세계보건기구(WHO)와 잠비아의 프로토콜에 따른 임상 가이드를 제공합니다. * **Solver (2위):** 자궁경부 세포진 검사 자동화를 위해 MedGemma-27B-IT 모델을 LoRA(Low-Rank Adaptation) 방식으로 파인튜닝했습니다. FastAPI 기반의 웹 앱을 통해 병리 의사에게 주석이 달린 이미지와 임상 권고안을 출력합니다. * **Mkunga (3위):** 모성 건강 상담을 위해 MedGemma와 Gemini를 활용한 AI 콜센터를 구축했습니다. Vertex AI의 TTS/STT(음성 합성 및 인식) 기술을 통해 스와힐리어로 저비용 원격 진료 서비스를 제공합니다. **열악한 통신 환경을 고려한 기술적 접근** * **HexAI (최우수 PoC):** 인터넷 연결이 제한된 환경에서도 작동할 수 있는 오프라인 우선(Offline-first) 모바일 앱 'DermaDetect'를 개발했습니다. * 온디바이스(On-device) 형태의 MedSigLIP 모델을 통해 커뮤니티 건강 요원들이 현장에서 피부 질환을 즉시 분류할 수 있도록 설계되었습니다. * 고도화된 분석이 필요한 경우에만 클라우드 기반의 MedGemma와 연결하는 하이브리드 구조를 채택하여 데이터 플라이휠을 구축했습니다. 이번 사례는 고성능 의료 AI 모델이 오픈소스로 제공될 때, 현지 개발자들이 지역적 특수성과 인프라 한계를 극복하며 얼마나 창의적인 솔루션을 구축할 수 있는지 잘 보여줍니다. 특히 인프라가 부족한 지역에서는 RAG를 통한 신뢰성 확보나 온디바이스 모델링을 통한 오프라인 지원 기술이 의료 격차를 해소하는 핵심적인 전략이 될 수 있음을 시사합니다.

​한국어와 이미지를 한 번에, 카카오의 멀티모달 임베딩 모델 개발기 (새 탭에서 열림)

카카오는 한국어 환경과 다양한 서비스 시나리오에 최적화된 멀티모달 임베딩 모델인 'Kanana-v-embedding'을 개발했습니다. 이 모델은 비전-언어 모델(VLM) 아키텍처를 기반으로 텍스트와 이미지를 하나의 공통된 의미 공간에 표현하여, 검색, 추천, RAG(검색 증강 생성) 등에서 발생하는 복합적인 모달리티 요구사항을 효과적으로 해결합니다. 특히 지시어(Instruction) 기반 학습과 가변 차원 임베딩 기술을 적용하여 실무적인 유연성과 성능을 동시에 확보한 것이 특징입니다. **멀티모달 임베딩의 개념과 VLM 기반 아키텍처** * 텍스트와 이미지를 고정 길이의 벡터로 변환하여 동일한 의미 공간상에 배치함으로써, 서로 다른 형태의 데이터 간 유사도를 코사인 유사도 등으로 직접 비교할 수 있게 합니다. * 기존 CLIP 모델이 텍스트와 이미지를 독립적으로 처리하여 복합 입력에 한계가 있었던 점을 극복하기 위해, VLM 기반 프레임워크를 채택했습니다. * 텍스트와 이미지 토큰이 트랜스포머 레이어를 거친 후, 마지막 히든 스테이트의 [EOS] 토큰 표현을 추출하고 정규화하여 최종 임베딩으로 사용합니다. **지시어 기반 학습 및 가변 차원 지원** * 검색, 추천, 분류 등 수행하려는 태스크의 목적에 맞는 지시어(Instruction)를 입력 쿼리와 함께 제공하여, 목적에 특화된 임베딩 표현을 생성할 수 있도록 설계했습니다. * 마트료시카 표현 학습(Matryoshka Representation Learning) 기법을 적용하여 64차원부터 2,048차원까지 다양한 임베딩 크기를 지원합니다. * 이를 통해 지연 시간(Latency)이 중요한 서비스 환경과 고성능 품질이 필요한 환경 모두에 유연하게 대응할 수 있는 운영 편의성을 갖췄습니다. **성능 극대화를 위한 학습 테크닉과 KoEmbed 데이터셋** * 그래디언트 캐싱(Gradient Caching) 기술을 도입하여 GPU 메모리 한계를 극복하고 대규모 배치 사이즈(8k 이상) 학습을 구현함으로써 대조 학습의 효율을 극대화했습니다. * 하드 네거티브 마이닝(Hard Negative Mining)을 통해 정답과 유사하지만 실제로는 오답인 샘플을 학습에 활용하여 모델의 변별력을 높였습니다. * 한국어와 카카오 서비스 특유의 문맥을 반영하기 위해 텍스트-텍스트, 텍스트-이미지 쌍으로 구성된 대규모 내부 데이터셋 'KoEmbed'를 구축하여 학습에 투입했습니다. **벤치마크를 통한 성능 검증 및 실무 적용** * 한국어 텍스트 임베딩 성능 측정 지표인 Ko-StrategyQA를 포함한 MTEB 벤치마크에서 기존 모델들을 제치고 종합 1위를 기록하며 탁월한 한국어 이해 능력을 입증했습니다. * 멀티모달 검색 성능 지표인 M-BEIR에서도 글로벌 수준의 성능을 확인하여 텍스트-이미지 교차 검색 및 추천에서의 경쟁력을 확보했습니다. * 이 모델은 카카오톡 앨범 검색, 유사 상품 추천, 멀티모달 RAG 시스템 등 다양한 실 서비스에 적용되어 사용자 경험을 개선하는 데 활용될 예정입니다. Kanana-v-embedding은 단순한 기술적 연구를 넘어 한국어 사용자에게 실질적인 가치를 제공하기 위해 최적화된 모델입니다. 한국어 서비스 환경에서 텍스트와 이미지를 동시에 다루며 성능과 효율성을 모두 잡아야 하는 개발자들에게 이 모델의 대조 학습 최적화 기법과 가변 차원 임베딩 방식은 훌륭한 기술적 이정표가 될 것입니다.

확장성과 성능이 향상 (새 탭에서 열림)

Amazon S3 Vectors가 정식 출시(GA)되어 클라우드 객체 스토리지에서 기본적으로 벡터 데이터를 저장하고 검색할 수 있는 길이 열렸습니다. 기존 전용 벡터 데이터베이스 대비 비용을 최대 90% 절감할 수 있으며, 서버리스 아키텍처를 통해 인프라 관리 부담 없이 대규모 AI 애플리케이션을 구축할 수 있습니다. 이번 정식 버전은 프리뷰 대비 확장성과 성능이 대폭 강화되어, 대규모 RAG(검색 증강 생성) 및 AI 에이전트 워크로드를 안정적으로 지원합니다. **비약적인 확장성 및 성능 향상** * **인덱스 규모 확장:** 단일 인덱스에서 최대 20억 개의 벡터를 지원하며, 벡터 버킷당 총 20조 개의 벡터를 저장할 수 있어 프리뷰 대비 확장성이 40배 향상되었습니다. * **검색 속도 최적화:** 빈번한 쿼리의 경우 응답 속도를 100ms 이하로 단축했으며, 간헐적인 쿼리도 1초 미만의 지연 시간을 유지하여 실시간 대화형 AI에 적합합니다. * **검색 결과 확대:** 쿼리당 반환 가능한 검색 결과 수를 기존 30개에서 100개로 늘려 RAG 애플리케이션에 더 풍부한 컨텍스트를 제공합니다. * **쓰기 처리량 강화:** 초당 최대 1,000건의 PUT 트랜잭션을 지원하여 실시간 데이터 스트리밍 및 대량의 동시 쓰기 작업을 원활하게 처리합니다. **서버리스 아키텍처를 통한 운영 및 비용 효율화** * **완전 관리형 서비스:** 별도의 인프라 설정이나 프로비저닝이 필요 없는 서버리스 구조로, 사용한 만큼만 비용을 지불하는 종량제 모델을 채택했습니다. * **비용 절감:** 전용 벡터 데이터베이스 솔루션과 비교했을 때 벡터 저장 및 쿼리 비용을 최대 90%까지 낮출 수 있어 경제적입니다. * **개발 수명 주기 지원:** 초기 프로토타이핑부터 대규모 프로덕션 배포까지 동일한 스토리지 환경에서 유연하게 대응할 수 있습니다. **에코시스템 통합 및 가용성 확대** * **Amazon Bedrock 연동:** Amazon Bedrock 지식 기반(Knowledge Base)의 벡터 스토리지 엔진으로 정식 지원되어 고성능 RAG 어플리케이션 구축이 용이해졌습니다. * **Amazon OpenSearch 통합:** S3 Vectors를 스토리지 계층으로 사용하면서 OpenSearch의 강력한 검색 및 분석 기능을 결합하여 사용할 수 있습니다. * **지역 확장:** 프리뷰 당시 5개였던 지원 리전을 서울을 포함한 전 세계 14개 AWS 리전으로 확대하여 접근성을 높였습니다. 전용 벡터 DB 도입에 따른 비용과 운영 복잡성이 부담스러웠던 기업이라면, S3의 높은 가용성과 보안을 그대로 누리면서 대규모 벡터 검색을 구현할 수 있는 S3 Vectors 도입을 적극 검토해 보시기 바랍니다. 특히 Amazon Bedrock과의 유연한 통합을 통해 생산성 높은 AI 서비스를 빠르게 시장에 출시할 수 있습니다.

Dash가 더 스마트한 AI를 위해 (새 탭에서 열림)

Dropbox Dash는 단순한 검색 시스템을 넘어 사용자의 의도를 이해하고 실행하는 에이전트형 AI로 진화하면서, 모델에 제공되는 정보를 정교하게 관리하는 '컨텍스트 엔지니어링'을 핵심 전략으로 채택했습니다. 단순히 많은 정보를 제공하는 것이 아니라 모델이 추론하고 행동하는 데 꼭 필요한 정보만을 선별하여 전달함으로써, AI의 '분석 마비' 현상과 토큰 낭비를 방지했습니다. 결과적으로 이러한 전략적 컨텍스트 관리는 모델의 판단 속도와 작업 정확도를 동시에 높이는 성과를 거두었습니다. ### 도구 정의의 최소화와 통합 인터페이스 구축 * 모델에게 너무 많은 API 호출 선택지를 주면 판단 속도가 느려지고 정확도가 떨어지는 현상이 발생했습니다. 이를 해결하기 위해 개별 서비스(Confluence, Jira, Google Docs 등)의 검색 도구를 하나로 묶은 '유니버설 검색 인덱스' 기반의 단일 도구를 구축했습니다. * Model Context Protocol(MCP)을 활용하여 도구 설명을 간결하게 유지함으로써, 모델의 컨텍스트 창(Context Window)이 사용자 요청이라는 본연의 목적에 더 많이 할애되도록 설계했습니다. * 하나의 일관된 인터페이스를 통해 정보를 검색하게 함으로써 모델의 계획 수립 과정을 단순화하고 효율성을 극대화했습니다. ### 지식 그래프를 통한 맥락적 데이터 필터링 * 단순히 여러 API에서 데이터를 가져오는 것에 그치지 않고, 검색된 결과 중 가장 관련성 높은 정보만 모델에 전달되도록 필터링 시스템을 강화했습니다. * 통합 인덱스 위에 사람, 활동, 콘텐츠 간의 관계를 연결한 '지식 그래프'를 구축하여 사용자별 맞춤형 순위 산출이 가능하게 했습니다. * 모델이 런타임에 방대한 정보를 직접 분석하는 대신, 이미 관계가 정립된 고가치 정보만 수신함으로써 추론의 질을 높이고 성능 저하를 방지했습니다. ### 복잡한 작업을 위한 전담 에이전트 도입 * 검색 쿼리 생성과 같이 복잡한 지침과 예시가 필요한 작업은 메인 모델의 컨텍스트 창을 과도하게 점유하는 문제를 일으켰습니다. * 이를 해결하기 위해 메인 에이전트는 전체적인 계획만 세우고, 구체적인 쿼리 작성은 별도의 '전담 에이전트'에게 위임하는 구조를 도입했습니다. * 역할 분담을 통해 메인 모델은 복잡한 세부 사항에 매몰되지 않고 전체 작업의 흐름에 집중할 수 있으며, 각 에이전트는 자신에게 할당된 컨텍스트 내에서 최적의 결과를 도출합니다. 효과적인 에이전트형 AI를 구축하기 위해서는 무조건 많은 데이터를 입력하기보다 모델이 처리해야 할 정보의 양과 질을 전략적으로 제어해야 합니다. 도구의 통합, 지식 그래프 기반의 정교한 필터링, 그리고 전문 에이전트로의 역할 분담은 성능 향상과 비용 절감을 동시에 달성할 수 있는 실무적인 context engineering 방안이 될 것입니다.