친구 버블: 페이스북 릴스의 소셜 디스커버리 강화 (새 탭에서 열림)

페이스북 릴스(Reels)의 '친구 버블(Friend Bubbles)'은 친구가 좋아하거나 반응한 콘텐츠를 사용자에게 추천하여 새로운 발견과 사회적 연결을 돕는 기능입니다. 이 시스템은 머신러닝을 활용해 사용자 간의 친밀도를 측정하고 소셜 그래프 신호를 비디오 랭킹 로직에 결합함으로써, 단순한 콘텐츠 소비를 넘어 친구와의 대화로 이어지는 의미 있는 상호작용을 창출합니다. 결과적으로 친구 버블은 개인의 관심사와 소셜 신호를 동시에 충족시켜 플랫폼의 체류 시간과 사회적 가치를 모두 높이는 역할을 합니다. **사용자 간 친밀도 모델을 통한 핵심 관계 식별** 친구 버블 시스템은 사용자가 누구의 상호작용에 더 민감하게 반응할지 판단하기 위해 두 가지 상호 보완적인 머신러닝 모델을 사용합니다. * **설문 기반 친밀도 모델:** 실제 사용자들을 대상으로 한 설문 데이터와 소셜 그래프(함께 아는 친구, 위치 정보, 상호작용 패턴 등)를 결합하여 학습합니다. 매주 수조 개의 친구 관계를 대상으로 추론(Inference)을 실행하여 오프라인에서의 실제 친밀도를 예측합니다. * **플랫폼 내 활동 기반 모델:** 친구 버블이 표시되었을 때 발생하는 좋아요, 댓글, 공유 등의 실시간 반응을 학습합니다. 이를 통해 사용자가 특정 소셜 맥락에서 누구의 추천을 더 가치 있게 여기는지 동적으로 파악합니다. * **관계의 질 중심:** 단순히 친구가 많다고 해서 더 많은 버블을 보여주는 것이 아니라, 사용자가 진정으로 의미 있다고 느낄 만한 관계를 소수 정예로 선별하여 추천의 품질을 높입니다. **소셜 신호를 반영한 비디오 랭킹 최적화** 좋은 친구 콘텐츠가 일반적인 인기 콘텐츠에 밀려나지 않도록 랭킹 시스템 전반에 소셜 컨텍스트를 주입합니다. * **검색(Retrieval) 단계 확장:** 친밀도 모델이 식별한 가까운 친구들이 상호작용한 영상을 명시적으로 검색 결과에 포함시켜, 순위 모델(Ranking)에 충분한 후보군이 전달되도록 퍼널 상단을 확장합니다. * **MTML(Multi-Task Multi-Label) 모델 적용:** 기존 랭킹 모델에 '친구 친밀도'와 '버블 노출 시 참여도'를 새로운 특징(Feature)과 과업(Task)으로 추가합니다. 이를 통해 모델은 영상 자체의 품질뿐만 아니라 관계의 힘이 주는 고유한 가치를 학습합니다. * **연속적 피드백 루프:** `P(비디오 참여 | 버블 노출)`라는 조건부 확률을 활용해 사용자가 버블을 보고 실제로 반응할 가능성을 예측하며, 소셜 연결성과 콘텐츠 몰입도 사이의 균형을 맞추기 위해 가중치를 미세하게 조정합니다. **성능 저하 없는 실시간 인프라 구축** 릴스는 성능에 매우 민감한 서비스이므로, 추가적인 데이터 처리가 사용자 경험을 해치지 않도록 설계되었습니다. * **프리페치(Prefetch) 활용:** 비디오가 화면에 나타나기 전 메타데이터와 썸네일을 미리 불러오는 기존 윈도우에 친구 버블 데이터를 통합하여 로드 지연을 방지했습니다. * **최적화된 자원 관리:** 부드러운 스크롤을 유지하고 CPU 오버헤드를 최소화하기 위해 캐싱된 결과를 재사용하고 데이터 호출 구조를 단순화했습니다. 친구 버블의 성공 사례는 추천 시스템이 단순히 사용자의 과거 이력만을 쫓는 것이 아니라, 사용자 주변의 사회적 맥락을 깊이 있게 이해할 때 더 큰 가치를 만들 수 있음을 보여줍니다. 기술적으로는 모델에 관계 중심의 특징(Feature)을 직접 주입하고, 인프라 측면에서는 데이터 로딩의 우선순위를 정교하게 관리하는 것이 핵심입니다. 단순히 '인기 있는' 콘텐츠를 보여주는 것을 넘어 '내 지인에게 의미 있는' 콘텐츠를 상위에 노출하고 싶다면, 이와 같은 하이브리드 소셜 랭킹 접근법이 효과적인 전략이 될 것입니다.

Our First 2026 Heroes Cohort Is Here! | Amazon Web Services (새 탭에서 열림)

AWS는 기술적 전문성을 넘어 전 세계 개발자 커뮤니티의 성장을 이끌고 있는 세 명의 전문가를 '2026년 첫 번째 AWS 히어로(AWS Heroes)'로 선정했습니다. 이번에 선정된 히어로는 이탈리아, 싱가포르, 파나마 출신의 리더들로, 클라우드 아키텍처, 생성형 AI, 그리고 보안 분야에서 혁신적인 지식 공유와 인재 양성에 기여한 공로를 인정받았습니다. 이들은 단순한 기술 전파를 넘어 지역사회와 글로벌 생태계를 연결하는 가교 역할을 수행하며 클라우드 문화의 확산을 주도하고 있습니다. **마우리치오(Maurizio): 지역적 한계를 넘는 클라우드 생태계 구축** - 이탈리아 바실리카타 지역의 AWS 사용자 그룹(UG) 리더이자 CTO로서, 기술 불모지에 가까웠던 산악 마을에 국제적인 기술 컨퍼런스를 설립하여 클라우드 문화를 개척했습니다. - 클라우드 아키텍처, DevOps, 웹 스케일링 등 심도 있는 기술 세션과 독창적인 네트워킹 경험을 결합하여 전 유럽의 전문가와 지역 인재를 연결하고 있습니다. - 어린이를 위한 코딩 교육부터 대학생 및 전문가를 위한 클라우드 아키텍처 전환 멘토링까지, 세대를 아우르는 지식 전수 모델을 실천하고 있습니다. **레이 고(Ray Goh): 생성형 AI 교육의 대중화와 대규모 기술 확산** - 2018년부터 AWS 커뮤니티에서 활동해온 AI 전문가로, 2024년 생성형 AI 학습 커뮤니티인 'The Gen-C'를 설립하여 LLM 파인트레이닝(fine-tuning)과 AI 에이전트 기술 보급에 앞장서고 있습니다. - DBS 은행에서 3,100명 이상의 직원을 대상으로 세계 최대 규모의 기업용 AWS DeepRacer 프로그램을 주도했으며, 2025년에는 1,300명 이상의 아세안(ASEAN) 학생들에게 LLM 기술을 교육했습니다. - 기술 공유를 넘어 여성과 청소년을 대상으로 한 AI/ML 사회공헌 활동(CSR)을 전개하며, CNBC와 유로머니(Euromoney) 등 주요 매체에 소개될 만큼 영향력 있는 리더십을 발휘하고 있습니다. **쉐일라 리콕(Sheyla Leacock): 글로벌 보안 생태계 강화와 교육적 헌신** - 파나마 AWS 사용자 그룹을 이끌며 멕시코, 라틴아메리카(LATAM), AWS re:Invent 등 글로벌 무대에서 활동하는 IT 보안 전문가이자 기술 작가입니다. - 클라우드 컴퓨팅과 사이버 보안에 관한 교육 콘텐츠를 정기적으로 발행하고, 전 세계 20개 이상의 국제 컨퍼런스에서 강연하며 보안 생태계의 전문성을 높이고 있습니다. - 여러 대학의 객원 강사로 활동하며 신규 보안 인재 양성을 지원하고, 이론과 실무를 겸비한 교육을 통해 라틴아메리카 지역의 기술 수준을 한 단계 끌어올리고 있습니다. 전 세계 곳곳에서 활동하는 AWS 히어로들의 행보는 클라우드 기술이 지역과 세대의 경계를 어떻게 허물 수 있는지 잘 보여줍니다. 각 분야의 전문성을 쌓고자 하는 개발자라면 AWS 히어로 페이지를 방문하여 거주 지역 근처의 히어로와 연결되거나, 이들이 공유하는 기술 블로그와 컨퍼런스 자료를 통해 최신 클라우드 트렌드와 보안, AI 실무 지식을 학습해 보기를 권장합니다.

정밀한 데이터 제어를 위한 커스텀 리전 소개 (새 탭에서 열림)

Cloudflare는 전 세계적인 보안망을 유지하면서도 각국의 데이터 주권 및 규제 요구사항을 충족할 수 있도록 돕는 '지역 서비스(Regional Services)'를 대폭 강화했습니다. 이번 업데이트를 통해 터키, UAE 등을 포함한 35개 이상의 관리형 지역을 제공할 뿐만 아니라, 고객이 직접 데이터 처리 경계를 정의할 수 있는 '사용자 정의 지역(Custom Regions)' 기능을 새롭게 도입했습니다. 이를 통해 기업은 글로벌 수준의 DDoS 방어 성능을 누리면서도, 특정 지리적 경계 내에서만 데이터 복호화와 서비스 처리가 이루어지도록 정교하게 제어할 수 있습니다. **지역 서비스의 독특한 보안 아키텍처** * **글로벌 수집 및 L3/L4 DDoS 방어**: 트래픽은 전 세계에서 가장 가까운 Cloudflare 데이터 센터로 유입되며, 이 시점에서 대규모 볼륨 공격을 차단하여 클린 트래픽만 내부로 전달합니다. * **지능형 지역 내 라우팅**: 데이터가 복호화되기 전 메타데이터를 검사하여, 지정된 지역 외부의 데이터 센터에 도착한 경우 Cloudflare의 전용 프라이빗 백본을 통해 해당 지역 내의 데이터 센터로 신속하게 전달합니다. * **지역 내 TLS 종단 및 L7 처리**: 지정된 지역 내의 데이터 센터에 도착한 후에만 TLS 복호화가 수행되며, WAF(웹 방화벽), 봇 관리, Cloudflare Workers 등의 애플리케이션 계층 서비스가 실행됩니다. * **안전한 원격지 전송**: 처리가 완료된 요청은 다시 암호화되어 고객의 원본(Origin) 서버로 안전하게 전송됩니다. **사용자 정의 지역(Custom Regions)을 통한 정교한 제어** * **유연한 경계 설정**: 사전 정의된 목록에서 선택하는 대신, 특정 국가 코드(`country_code`)를 조합하거나 특정 국가를 제외하는 논리식을 사용하여 고유한 처리 지역을 구축할 수 있습니다. * **AI 및 데이터 현지화**: LLM 프롬프트와 응답 데이터를 특정 국가 그룹 내에 유지하여 성능을 최적화하고 법적 의무를 준수할 수 있습니다. * **기업 및 정부 요구사항 대응**: EMEA(유럽·중동·아프리카)나 APAC(아시아 태평양)과 같은 기업 내부 조직 구조에 맞추거나, 정부 기관과의 계약에 명시된 지리적 제약 조건을 완벽하게 이행할 수 있습니다. * **하이퍼 타겟 마케팅**: 특정 국가 조합에 최적화된 콘텐츠 서비스 및 캠페인 운영이 가능해집니다. 데이터 주권법이 강화되는 현대 비즈니스 환경에서 Cloudflare의 사용자 정의 지역은 보안성 저하 없이 규제를 준수할 수 있는 실질적인 해법을 제시합니다. 특정 지역 내에서만 민감한 데이터를 처리해야 하는 금융, 의료, 정부 관련 기업은 이 기능을 통해 글로벌 인프라의 확장성과 지역적 통제권을 동시에 확보할 것을 권장합니다.

AttributedString 구조로 풀어낸 대규모 iOS 설정 시스템 (새 탭에서 열림)

LINE iOS 앱의 성장으로 인해 기존의 일체형 서비스 설정 시스템은 의존성 관리, 안정성, 개발 생산성 측면에서 한계에 봉착했습니다. 이를 해결하기 위해 LINE은 각 모듈이 독립적으로 설계를 정의하면서도 타입 안전성을 확보하고, 동시성 환경에서도 안전하게 작동하는 새로운 아키텍처로의 전환을 시도했습니다. 특히 Apple의 `AttributedString` 설계 방식을 벤치마킹하여 대규모 프로젝트에 적합한 확장성 있는 설정 관리 체계를 구축하고자 했습니다. **서비스 설정 시스템의 역할과 구조** * LINE은 2주마다 정기 배포를 진행하므로, 개별 서비스의 신규 기능 출시나 롤백을 앱 업데이트 없이 수행하기 위해 '서비스 설정' 시스템을 활용합니다. * 서버는 사용자의 지역, 기기, OS 버전 등에 따라 최적화된 설정값을 문자열 형태의 키-값 쌍(JSON)으로 클라이언트에 전달합니다. * 이 시스템은 기능 토글뿐만 아니라 A/B 테스트, 오류 수집 샘플링 비율 조정, UI 정책 결정 등 다양한 용도로 사용되며 현재 약 700개의 키가 운용되고 있습니다. **일체형 구조로 인한 순환 의존성 딜레마** * 과거에는 모든 설정 키를 단일 파일에서 관리했으나, 프로젝트 규모가 커지며 해당 파일이 7천 줄에 달하는 등 관리가 어려워졌습니다. * 설정 시스템이 특정 서비스 모듈의 전용 타입(예: 사진 품질 타입)을 반환하려 하면 모듈 간 순환 참조가 발생하여, 결국 타입 안전한 객체 대신 날것의 문자열을 노출하고 각 모듈에서 매번 파싱해야 하는 비효율이 발생했습니다. **불완전한 추상화와 구현 세부 사항의 노출** * 서버 규약에 따라 불리언 값을 "Y"/"N" 문자열로 처리해야 했고, 이를 위해 `decodeBoolIfPresent` 같은 비표준 메서드를 별도로 구현해야 했습니다. * 이 과정에서 표준 메서드와의 혼동으로 인한 버그가 잦았으며, 용도가 미묘하게 다른 기본값을 세 번이나 중복 정의해야 하는 설계 결함이 존재했습니다. * 이러한 복잡성은 신규 개발자에게 암기 위주의 온보딩 지식을 강요하여 생산성을 저하시켰습니다. **스레드 안전성 부재로 인한 런타임 오류** * 기존 시스템은 동시성을 고려하지 않고 설계되어, 여러 스레드에서 설정값을 읽는 과정에서 지연 평가 및 인스턴스 해제 타이밍이 겹치는 문제가 있었습니다. * 이로 인해 메모리 해제 후 사용(use-after-free) 오류가 발생하여 매일 수백 건의 크래시가 기록되는 등 앱 안정성에 심각한 영향을 미쳤습니다. **테스트 및 디버깅 효율성 저하** * 시스템 자체에 오버라이드 기능이 없어 QA 과정에서 설정값을 임시로 변경하려면 다수의 파일을 직접 수정해야 하는 번거로움이 있었습니다. * 싱글턴 구조의 의존성 때문에 각 모듈은 테스트를 위해 별도의 프로토콜과 테스트 대역을 각자 만들어 관리해야 했으며, 이는 실제 구현체와의 동작 괴리를 유발하는 원인이 되었습니다. **성장을 위한 설계의 재정립** * 대량의 키-값 쌍을 타입 안전하게 관리하면서도 각 모듈이 독립적으로 키를 정의할 수 있는 구조를 만들기 위해 Foundation의 `AttributedString` 설계를 참고했습니다. * 이는 개별 서비스가 자신의 도메인에 맞는 설계를 독립적으로 확장할 수 있게 하여, 거대해진 프로젝트 규모에 대응할 수 있는 유연한 기반을 마련하는 계기가 되었습니다.

머신 결제 프로토콜 소개 (새 탭에서 열림)

AI 에이전트가 단순한 챗봇을 넘어 스스로 계획하고 실행하는 자율적 존재로 진화함에 따라, 이들이 비즈니스 및 상호 간에 원활하게 거래할 수 있는 금융 시스템의 필요성이 커지고 있습니다. 기존의 결제 시스템은 계정 생성이나 복잡한 UI 조작 등 인간의 개입을 전제로 설계되어 에이전트가 활용하기 어려웠으나, 스트라이프(Stripe)는 이를 해결하기 위해 기계 간 결제를 위한 오픈 표준인 '기계 결제 프로토콜(Machine Payments Protocol, MPP)'을 출시했습니다. MPP는 에이전트가 프로그래밍 방식으로 결제를 수행할 수 있게 함으로써 자율적인 에이전트 경제의 기반을 마련하며, 기업들이 기계를 새로운 고객층으로 맞이할 수 있도록 지원합니다. ### 기존 금융 시스템과 에이전트의 충돌 * 오늘날의 결제 프로세스는 계정 생성, 요금제 선택, 카드 정보 입력 등 인간의 판단과 수동 입력이 필요한 단계들로 구성되어 있어 자율 에이전트의 접근이 제한적입니다. * 에이전트가 독립적으로 서비스를 구매하고 가치를 교환하기 위해서는 인간 중심의 인터페이스를 넘어선 인터넷 네이티브(Internet-native) 방식의 결제 수단이 필요합니다. * 스트라이프와 템포(Tempo)가 공동 저술한 MPP는 에이전트가 사람의 도움 없이도 소액 결제, 정기 구독 등을 처리할 수 있는 사양을 제공합니다. ### 기계 결제 프로토콜(MPP)의 작동 원리와 이점 * 에이전트가 서비스나 API(또는 MCP 엔드포인트)에 자원을 요청하면, 서비스는 MPP를 통해 결제 요청을 응답하고 에이전트가 이를 승인하는 방식으로 거래가 이루어집니다. * 기업은 스트라이프의 'PaymentIntents API'를 활용해 단 몇 줄의 코드만으로 MPP 결제를 수락할 수 있습니다. * '공유 결제 토큰(Shared Payment Tokens, SPTs)'을 통해 법정 화폐뿐만 아니라 스테이블 코인, BNPL(선구매 후결제) 등 다양한 결제 수단을 지원합니다. * MPP를 통한 거래는 기존 스트라이프 대시보드에 통합되므로, 기업은 기존 인프라를 그대로 사용하여 세금 계산, 사기 방지, 회계 보고 및 환불 처리를 관리할 수 있습니다. ### 에이전트 경제를 위한 실제 활용 사례 * **Browserbase:** 에이전트가 헤드리스 브라우저를 구동할 때 세션당 비용을 실시간으로 결제합니다. * **PostalForm:** 에이전트가 실제 우편물을 인쇄하고 발송하는 비용을 프로그래밍 방식으로 지불합니다. * **실물 경제 연결:** 뉴욕시 내에서 에이전트가 직접 샌드위치를 주문하여 배달시키거나, 'Stripe Climate'에 자발적으로 기여하는 등의 활동이 가능해졌습니다. * **Parallel Web Systems:** 에이전트를 주요 사용자로 상정하고, 에이전트가 웹 접속을 위한 API 호출 시마다 자율적으로 비용을 지불하는 모델을 구축했습니다. ### 에이전트 커머스 생태계 구축을 위한 비전 * 스트라이프는 MPP 외에도 '에이전트 커머스 스위트(Agentic Commerce Suite)', '에이전트 커머스 프로토콜(ACP)', '모델 컨텍스트 프로토콜(MCP)' 통합 등 광범위한 인프라를 구축 중입니다. * 또한 HTTP 402(Payment Required) 오류 코드를 활용한 결제 지원 등 에이전트 중심의 새로운 경제 패턴을 지원하기 위한 기술적 표준을 확장하고 있습니다. 비즈니스는 이제 에이전트를 새로운 고객 카테고리로 인식하고 이들에게 서비스를 판매할 준비를 해야 합니다. 스트라이프의 MPP를 도입하면 기존의 비즈니스 로직과 회계 시스템을 유지하면서도 전 세계의 에이전트 개발자들을 대상으로 수익 모델을 확장할 수 있으며, 이를 위해 제공되는 공식 문서와 얼리 액세스 프로그램을 활용해 선제적으로 대응할 것을 권장합니다.

랭킹 엔지니어 에이전트(REA): 메타의 광고 랭킹 혁신을 가속화하는 자율형 AI 에이전트 (새 탭에서 열림)

Meta는 광고 랭킹 모델의 머신러닝(ML) 생태 주기를 자율적으로 수행하는 '랭킹 엔지니어 에이전트(REA)'를 개발하여 모델 최적화 과정을 혁신했습니다. REA는 가설 생성부터 학습 실행, 오류 디버깅, 결과 분석에 이르는 전 과정을 수동 개입 없이 관리하며, 기존 엔지니어링 방식 대비 모델 정확도를 2배 높이고 업무 효율을 5배 향상시키는 성과를 거두었습니다. 이는 단순 보조 도구를 넘어 복잡하고 긴 시간이 소요되는 ML 실험 과정을 독립적으로 주도할 수 있는 자율형 AI 에이전트의 가능성을 증명한 사례입니다. **장기 워크플로우를 위한 동면 및 깨우기(Hibernate-and-Wake) 메커니즘** * ML 모델 학습은 수 시간에서 수일이 소요되므로, 세션 기반의 일반 AI 비서로는 전체 과정을 관리하기 어렵습니다. * REA는 학습 작업을 실행한 후 대기 상태(동면)로 전환하여 자원을 보존하고, 작업이 완료되면 자동으로 복귀하여 다음 단계를 진행합니다. * 내부 AI 에이전트 프레임워크인 'Confucius'를 기반으로 구축되어 코드 생성, 내부 도구 통합, 실험 추적 인프라와의 유기적인 연결을 지원합니다. * 이를 통해 며칠에서 몇 주에 걸친 긴 실험 과정에서도 일관된 상태와 메모리를 유지하며 자율적으로 업무를 지속합니다. **데이터 기반의 하이브리드 가설 생성 엔진** * REA는 단순히 임의의 실험을 반복하는 것이 아니라, 두 가지 핵심 소스를 통해 고품질의 가설을 수립합니다. * **과거 통찰 데이터베이스:** 이전의 실험 성공 및 실패 패턴을 학습하여 맥락에 맞는 최적화 방향을 제시합니다. * **ML 리서치 에이전트:** 기준 모델의 설정을 조사하고 최신 ML 연구 트렌드를 반영하여 혁신적인 전략을 제안합니다. * 두 소스의 결합을 통해 모델 구조 최적화와 학습 효율성 개선이 결합된, 엔지니어가 단독으로 생각하기 어려운 독창적이고 효과적인 실험 구성을 도출합니다. **3단계 계획 프레임워크와 자율적 복원력** * REA는 엔지니어가 승인한 예산 범위 내에서 효율적으로 자원을 배분하기 위해 '검증(Validation) → 조합(Combination) → 활용(Exploitation)'의 3단계 전략을 사용합니다. * 먼저 개별 가설의 성능을 병렬로 검증한 뒤, 유망한 가설들을 조합하여 시너지 효과를 탐색하고, 최종적으로 가장 가능성 높은 후보에 자원을 집중 투입합니다. * 인프라 장애나 메모리 부족(OOM), 손실 발산(Loss Explosion) 같은 기술적 오류 발생 시, 미리 정의된 가이드라인과 원천 원리(First Principles)를 바탕으로 스스로 디버깅을 수행합니다. * 엔지니어는 매 순간을 감시하는 대신 전략적 결정 지점에서만 검토를 수행하므로, 적은 인원으로도 다수의 모델을 동시에 개선할 수 있습니다. REA의 사례는 AI 에이전트가 단순한 코딩 보조 도구를 넘어, 도메인 지식과 인프라 제어 능력을 갖춘 '자율적인 동료'로 진화하고 있음을 보여줍니다. 대규모 ML 시스템을 운영하는 조직이라면 REA와 같이 과거 데이터를 자산화하고 장기적인 실험 로드맵을 스스로 실행할 수 있는 에이전트 도입을 검토해야 합니다. 이는 반복적인 디버깅과 모니터링 작업에서 엔지니어를 해방시켜 더 고차원적인 전략 수립에 집중할 수 있는 환경을 제공할 것입니다.

DSPy를 사용하여 Dash의 관련성 판별기를 최적화한 방법 (새 탭에서 열림)

Dropbox는 검색 및 답변 서비스인 Dash의 핵심 기능인 '관련성 판단 모델(relevance judge)'을 최적화하기 위해 DSPy 프레임워크를 도입했습니다. 기존의 수동 프롬프트 엔지니어링 방식에서 벗어나, 인간의 평가 점수와 모델 점수 간의 차이를 최소화하는 체계적인 최적화 루프를 구축함으로써 더 저렴한 오픈 소스 모델에서도 고성능을 유지할 수 있게 되었습니다. 결과적으로 모델 교체 시 발생하는 성능 저하 문제를 해결하고, 대규모 데이터 처리를 위한 비용 효율성과 신뢰성을 동시에 확보했습니다. **인간 평가 기반의 성능 측정 체계** * 관련성 판단 모델은 쿼리와 문서의 연관성을 1~5점 척도로 할당하며, 이를 인간 평가자의 점수와 비교하여 성능을 측정합니다. * 주요 평가지표로 NMSE(Normalized Mean Squared Error)를 사용하며, 이는 AI 점수가 인간의 판단에서 얼마나 벗어나는지를 0~100 사이의 수치로 나타냅니다. * 단순 점수 외에도 프로덕션 환경에서의 안정성을 위해 JSON 출력 형식이 올바른지, 구조적 가이드라인을 준수하는지를 엄격히 관리합니다. **고비용 모델에서 효율적인 모델로의 이식** * 초기에는 성능이 뛰어난 OpenAI의 o3 모델을 사용했으나, 서비스 규모가 확장됨에 따라 수천 배 더 많은 데이터 처리를 위한 비용 절감이 필요해졌습니다. * 상대적으로 저렴한 gpt-oss-120b 모델로 이전을 시도했으나, 기존 고성능 모델에 최적화된 프롬프트가 그대로 작동하지 않아 성능 저하가 발생했습니다. * 이를 해결하기 위해 수동으로 프롬프트를 수정하는 대신, DSPy를 통해 특정 모델에 최적화된 프롬프트를 자동 생성하는 방식을 선택했습니다. **DSPy와 GEPA를 활용한 프롬프트 최적화** * DSPy의 GEPA(Generalized Evaluation-based Prompt Adaptation) 옵티마이저를 사용하여 모델이 인간과 다른 판단을 내린 지점을 분석하고 피드백을 생성합니다. * 모델의 예측 점수와 인간의 점수 차이, 그리고 인간의 작성 이유(Rationale)를 결합하여 구체적인 피드백 루프를 구성합니다. * 피드백 과정에서 특정 키워드에 과적합(Overfitting)되지 않도록 일반적인 규칙을 도출하며, "최신성을 과소평가함"이나 "키워드 일치에 과도하게 비중을 둠" 같은 구체적인 오류 패턴을 수정합니다. * 이 최적화 루프는 '평가-피드백-프롬프트 수정-재평가' 과정을 반복하며 목표 지표인 NMSE를 최소화하는 최적의 프롬프트를 찾아냅니다. **결론 및 권장사항** LLM 시스템을 프로덕션 수준으로 확장할 때 가장 큰 장애물은 모델 변경이나 프롬프트 수정 시 발생하는 예기치 못한 성능 저하입니다. Dropbox의 사례처럼 DSPy와 같은 프레임워크를 활용해 프롬프트 엔지니어링을 '체계적인 최적화 프로세스'로 전환하면, 모델 이식성을 높이고 운영 비용을 획기적으로 낮추면서도 품질을 일정하게 유지할 수 있습니다. 특히 대규모 관련성 평가가 필요한 시스템이라면 수동 튜닝 대신 측정 가능한 지표 중심의 자동화된 최적화 루프를 구축하는 것을 권장합니다.

LINE 앱의 다자간 대화 기능 통합 (새 탭에서 열림)

LINE은 서로 다른 용도로 운영되던 '여러 명과의 대화'와 '그룹' 기능을 '그룹 대화'라는 단일 모델로 통합하여 사용자 경험을 개선하고 시스템 리소스를 효율화했습니다. 기존의 이원화된 구조에서 발생하던 기능 제한과 중복 대화방 생성 문제를 해결하기 위해 통합 API 설계 및 점진적인 데이터 마이그레이션을 수행했습니다. 이를 통해 사용자는 생성 방식에 관계없이 모든 기능을 동일하게 사용할 수 있게 되었으며, 중복 방 생성 비율을 획기적으로 낮추는 기술적 성과를 거두었습니다. ### 이원화된 대화 모델의 한계 * **여러 명과의 대화(Room):** 별도의 승인 없이 즉시 대화가 가능하지만, 일시적 목적으로 설계되어 앨범이나 노트 같은 그룹 전용 기능을 사용할 수 없었습니다. * **그룹(Group):** 초대 승인 절차가 필요한 대신 장기적인 소통에 적합한 다양한 편의 기능을 제공했으나, 초기 진입 장벽이 존재했습니다. * **사용자 혼란 및 리소스 낭비:** 사용자들이 두 모델의 차이를 이해하지 못해 기능이 제한된 방을 잘못 만들거나, 동일한 구성원의 대화방을 중복으로 생성하여 서버와 클라이언트의 리소스가 불필요하게 소모되었습니다. ### 그룹 대화로의 기술적 마이그레이션 * **점진적 API 전환:** 새로운 그룹 대화 API를 설계한 후, '이중 읽기(Dual Read)' 방식을 도입하여 이전 API와의 호환성을 유지하며 단계적으로 전환을 진행했습니다. * **데이터 배치 처리:** 기존의 모든 그룹 데이터를 배치 처리를 통해 신규 모델로 이관하였으며, 안정성이 확인된 후 이중 읽기를 중단하고 그룹 대화 시스템으로 단일화했습니다. * **통합 모델 확립:** 그룹 모델의 아키텍처를 기반으로 여러 명과의 대화 모델을 흡수하여, 향후 추가될 모든 신규 기능이 모든 대화방에 동일하게 적용되도록 구조를 개선했습니다. ### 사용자 경험 최적화 및 운영 성과 * **초대 메커니즘 단일화:** 대화방 생성 UI를 통합하여 '즉시 참여'와 '수락 후 참여' 여부를 사용자가 상황에 맞게 직접 선택할 수 있도록 개선했습니다. * **중복 생성 방지 힌트:** 동일한 구성원으로 새로운 방을 만들려 할 때 기존 대화방을 안내하는 '힌트' 기능을 제공하여 불필요한 대화 목록 생성을 방지했습니다. * **정량적 성과:** 프로젝트 결과, 동일 구성원으로 중복 생성되는 대화방 비율이 기존 15%에서 0.78%로 급감하며 데이터 관리 효율성이 크게 향상되었습니다. 대규모 서비스에서 유사한 기능을 통합할 때는 사용자에게 갑작스러운 변화를 강요하기보다, 점진적인 API 전환과 기능적 일원화를 통해 자연스러운 이동을 유도하는 것이 중요합니다. 이번 통합 사례는 시스템의 복잡성을 줄이면서도 데이터 일관성과 사용자 편의성을 동시에 확보할 수 있는 구체적인 마이그레이션 전략을 보여줍니다.

머신러닝을 이용한 유방암 검진 워크플로우 개선 (새 탭에서 열림)

구글 리서치(Google Research)는 영국 NHS(국가 보건 서비스)와의 협력을 통해 유방암 검진 워크플로우에 인공지능(AI)을 통합하는 대규모 연구를 진행하였으며, 이를 통해 암 진단 정확도 향상과 의료진 업무 부담 경감 가능성을 확인했습니다. 연구 결과 AI 시스템은 기존의 이중 판독(Double-read) 시스템에서 인간 판독자를 보조하거나 대체할 수 있는 충분한 성능을 보였으며, 특히 침습성 암 및 간격암(Interval cancer) 발견에서 뛰어난 성과를 거두었습니다. 이는 전문 인력 부족 문제를 겪고 있는 의료 현장에 지속 가능한 검진 시스템을 구축할 수 있는 실무적 근거를 제시합니다. ### AI 시스템의 독립적 성능 및 간격암 탐지 능력 * **대규모 후향적 검증:** 12만 5천 명 이상의 여성을 대상으로 한 연구에서 AI 시스템은 기존 첫 번째 판독자(인간)보다 유의미하게 높은 민감도를 기록했습니다. * **암 발견율 향상:** 유방암 발견율이 여성 1,000명당 7.54건에서 9.33건으로 증가했으며, 특히 기존 방식에서 놓쳤던 간격암의 25%를 추가로 식별해 냈습니다. * **병변 국소화 정확도:** 단순히 상관관계에 의존하는 것이 아니라, 실제 이상 부위를 정확히 짚어내는 병변 수준의 분석(Lesion-level localization)을 통해 기술적 신뢰성을 확보했습니다. * **형평성 확인:** 연령, 인종, 유방 밀도, 사회경제적 지위 등 다양한 인구통계학적 변수 전반에서 성능 편향이 나타나지 않음을 확인했습니다. ### 기술적 실무 통합 및 배포 타당성 * **신속한 처리 속도:** 실제 임상 현장에서 AI 판독은 완료까지 중앙값 17.7분이 소요된 반면, 인간의 첫 번째 판독은 2일 이상 소요되어 검진 효율성을 극대화할 수 있음을 입증했습니다. * **데이터 분포 변화(Distribution Shift) 대응:** 과거 학습 데이터와 현대 임상 데이터 간의 차이를 식별함으로써, 안전한 AI 도입을 위해 현장 맞춤형 '운영 지점(Operating point)' 보정 절차가 필수적임을 확인했습니다. * **단계적 도입 전략:** 12개 검진 사이트에 비개입형(Non-interventional)으로 배포하여 기술적 통합 과정을 점검하고, 실제 워크플로우 내에서의 실현 가능성을 증명했습니다. ### 인간과 AI의 협업 모델 및 이중 판독 워크플로우 * **AI 기반 이중 판독:** 두 명의 인간이 판독하던 기존 방식 대신 '인간 1명 + AI 시스템' 조합을 제안하고, 의견 불일치 시 중재(Arbitration) 패널이 개입하는 구조를 평가했습니다. * **실제 인간-AI 상호작용 분석:** 22명의 판독자가 참여하여 수천 건의 사례를 중재하는 과정을 통해, AI의 출력이 인간의 최종 의사결정에 미치는 영향과 실제 운영 규칙 준수 여부를 연구했습니다. * **의료 인력 부족 문제 해결:** 2028년까지 예상되는 영상의학 전문의 부족 현상(약 40%)에 대비하여, AI가 판독 품질을 유지하면서도 의료진의 업무 과중을 해결할 핵심 도구가 될 수 있음을 보여주었습니다. 이 연구는 AI가 실제 임상 환경에서 효과적인 '제2 판독자' 역할을 수행할 수 있음을 강력하게 뒷받침합니다. 다만, 실무 도입 시에는 지역별 환자 군과 워크플로우 특성에 맞춘 정밀한 캘리브레이션과 단계적인 검증 과정을 거치는 것이 중요하며, 이를 통해 의료 시스템의 지속 가능성을 확보할 수 있을 것으로 권고됩니다.

The Check Up에서의 구글 리서치: 헬스케어 혁신에서 실제 의료 현장까지 (새 탭에서 열림)

구글 리서치는 AI가 단순한 건강 데이터 추적 도구를 넘어 환자와 의료진 모두를 지원하는 통합적인 협업자가 되는 새로운 의료 시대를 제시합니다. 멀티모달 모델과 글로벌 파트너십을 통해 개인화된 건강 관리부터 암 진단, 공중 보건 최적화까지 아우르는 기술 혁신을 실현하고 있으며, 이를 통해 전 세계 누구나 고품질의 의료 서비스를 누릴 수 있도록 민주화하는 것을 목표로 합니다. **개인화된 건강 관리를 위한 지능형 에이전트** * Fitbit과의 협업으로 개발된 '개인 건강 에이전트(PHA)'는 단순한 걸음 수 측정을 넘어 데이터 과학자, 도메인 전문가, 건강 코치의 역할을 동시에 수행하며 장기적인 건강 증진을 돕습니다. * 대규모 멀티모달 모델을 기반으로 웨어러블 기기의 일상 데이터를 분석하여 수면, 건강 상태, 피트니스에 대한 개인별 맞춤형 통찰력과 가이드를 제공합니다. **의료진의 역량을 강화하는 협업형 AI** * 유방암 진단 AI 시스템은 기존 선별 검사에서 놓치기 쉬운 '간격암(interval cancers)'의 25%를 추가로 발견하는 성과를 거두었으며, 전문의의 업무 부하를 줄여 환자 대면 시간을 늘리는 데 기여합니다. * 멀티 에이전트 시스템인 'AMIE'는 병력, 검사 결과, 복잡한 의료 영상을 통합적으로 추론하여 의료진이 놓칠 수 있는 패턴을 식별하며, 현재 실제 임상 환경에서 실시간 병력 청취 보조 도구로 테스트 중입니다. * 당뇨망막병증 선별 모델은 인도, 태국 등지에서 100만 건 이상의 검사를 수행하며 2분 만에 진단 결과를 제공해 실명 예방의 효율성을 극대화하고 있습니다. **의료 개발자 생태계를 위한 개방형 기초 기술** * '의료 AI 개발자 파운데이션(HAI-DEF)'을 통해 오픈 웨이트 모델과 오픈소스 도구를 무료로 제공하여 전 세계 개발자들이 독자적인 의료 앱을 구축할 수 있도록 지원합니다. * 의료 특화 모델인 'MedGemma'는 텍스트와 3D 영상 해석, 의료 전용 음성 인식을 지원하며 인도와 싱가포르 등에서 외래 환자 분류 및 일차 진료 서비스 구축에 활용되고 있습니다. **공중 보건 및 과학적 발견의 가속화** * 'Google Earth AI'의 지형 공간 모델을 공중 보건에 접목하여 홍역 예방 접종률을 우편번호 단위의 초고해상도로 추정함으로써 보건 당국이 취약 지역에 선제적으로 대응할 수 있도록 돕습니다. * 가설 생성을 지원하는 'Co-Scientist'와 암 관련 유전적 변이를 정확히 식별하는 'DeepSomatic' 등의 도구를 통해 생물 의학 및 유전학 연구의 속도를 혁신적으로 높이고 있습니다. 구글의 이러한 행보는 AI 기술의 임상적 투명성과 안전성을 확보하기 위해 학술지 논문 게재 및 글로벌 의료 기관과의 협업을 병행하고 있음을 보여줍니다. 의료 기술 개발자와 관련 종사자들은 HAI-DEF와 같은 개방형 플랫폼을 활용해 검증된 AI 모델을 각 지역의 특성에 맞게 최적화함으로써 실질적인 의료 서비스의 질을 높일 수 있을 것입니다.

ROOST가 온라인 안전을 발전시키는 방법 (새 탭에서 열림)

디스코드는 자사의 핵심 보안 기술인 ‘오스프리(Osprey)’를 비영리 단체 ROOST에 기부하고 오픈 소스로 전환했습니다. 이는 소규모 플랫폼들이 보안 시스템을 처음부터 다시 구축할 필요 없이 검증된 도구를 활용할 수 있도록 돕기 위한 결정입니다. 이번 기술 공유를 통해 온라인 커뮤니티 전반의 안전 혁신을 가속화하고, 보안 기술이 기업의 비밀이 아닌 공유 자산이 되는 생태계를 구축하고자 합니다. **오스프리(Osprey): 대규모 커뮤니티 보호를 위한 룰 엔진** * 매일 약 1억 명에 달하는 디스코드 사용자들의 로그인, 메시지 전송, 계정 설정 변경 등 수억 건의 활동을 실시간으로 분석합니다. * 의심스러운 로그인 시도를 식별하고 유해한 콘텐츠를 감지하며, 봇 공격이 확산되기 전에 이를 차단하는 역할을 수행합니다. * 디스코드의 대규모 트래픽을 처리하며 성능과 안정성이 검증된 규칙 기반 엔진 기술입니다. **ROOST와 안전 기술의 민주화** * ROOST는 플랫폼 간에 공유 가능하고 투명하게 검증할 수 있는 안전 도구를 만들기 위해 설립된 비영리 재단입니다. * 대형 플랫폼인 디스코드가 이미 구축한 기술을 공개함으로써, 자원이 부족한 소규모 서비스들이 동일한 수준의 보안 위협에 대응할 수 있도록 지원합니다. * 기술의 폐쇄성을 탈피하여 전 세계적인 온라인 안전 혁신의 속도를 높이는 것을 목표로 합니다. 온라인 환경의 위협이 고도화됨에 따라 개별 기업의 대응보다는 기술 공유를 통한 공동의 방어가 중요해지고 있습니다. 오스프리의 오픈 소스화는 보안 담당자들이 검증된 룰 엔진을 자사 서비스에 이식하거나 벤치마킹할 수 있는 좋은 기회가 될 것입니다. 안전한 커뮤니티 운영을 고민하는 플랫폼 개발자라면 ROOST를 통해 공개된 오스프리 기술을 적극적으로 검토해 보기를 권장합니다.

소프트웨어 3.0 시대를 맞이하며 (새 탭에서 열림)

소프트웨어 개발은 명시적 코딩(1.0)과 데이터 기반 학습(2.0)을 거쳐, 자연어 프롬프트가 프로그램이 되는 '소프트웨어 3.0' 시대로 진입하고 있습니다. 하지만 강력한 LLM 모델이라도 실질적인 업무를 수행하기 위해서는 모델의 능력을 제어하고 연결하는 '하네스(Harness)'라는 도구적 환경이 필수적이며, 이를 설계하는 데 있어 기존 소프트웨어 1.0의 계층형 아키텍처 원칙은 여전히 유효한 가이드가 됩니다. 결국 미래의 개발은 전통적인 설계 원칙을 유지하면서도, 에이전트가 인간과 소통하며 의사결정을 내리는 'Human-in-the-Loop(HITL)' 모델을 결합하는 방향으로 진화할 것입니다. **소프트웨어 3.0과 하네스의 필요성** - 안드레 카파시는 소프트웨어 3.0을 자연어로 된 프롬프트가 코드를 대신하는 시대로 정의하며, 이것이 이전 세대의 패러다임을 흡수할 것이라고 예측했습니다. - 하지만 LLM 단독으로는 코드베이스를 읽거나 데이터베이스에 접근하는 등의 실질적인 작업을 수행할 수 없다는 한계가 있습니다. - 이를 해결하기 위해 등장한 것이 '하네스(Harness)' 개념으로, 앤스로픽의 'Claude Code'처럼 모델이 도구(Skills)를 사용하고 외부와 통신하며 에이전트로 동작하게 만드는 실행 환경을 의미합니다. **계층형 아키텍처로 매핑한 에이전트 구조** - **슬래시 커맨드(Slash Command) = 컨트롤러(Controller):** `/review`, `/refactor`와 같은 명령어는 사용자 요청을 받아 적절한 워크플로우를 실행하는 서비스의 진입점 역할을 합니다. - **서브 에이전트(Sub-agent) = 서비스 계층(Service Layer):** 여러 기술(Skills)을 조합해 특정 비즈니스 로직을 완수하며, 독립적인 컨텍스트를 유지하는 단위입니다. - **기술(Skills) = 도메인 컴포넌트:** 단일 책임 원칙(SRP)에 따라 코드 리뷰, 테스트 생성 등 명확한 한 가지 기능만 수행하는 가장 작은 단위의 기능 모듈입니다. - **MCP(Model Context Protocol) = 인프라/어댑터:** 외부 API나 DB와의 연결을 추상화하여 내부 로직이 외부 시스템의 구현 상세를 몰라도 동작하게 돕습니다. - **CLAUDE.md = 프로젝트 헌장:** 기술 스택, 코딩 컨벤션 등 프로젝트의 변하지 않는 근간 원칙을 정의하며 시스템의 안정성을 보장합니다. **에이전트 설계에서 경계해야 할 안티패턴** - **God Sub-agent:** 하나의 서브 에이전트가 너무 많은 역할과 권한을 가지게 되면 관리 효율이 떨어지므로 적절한 분리가 필요합니다. - **기능 편애(Feature Envy):** 특정 기술이 자신의 역할 범위를 벗어나 다른 기술의 데이터나 프롬프트에 과도하게 의존하는 경우입니다. - **프롬프트 중복:** 동일한 프롬프트 내용이 여러 기술에 중복되어 포함될 경우 유지보수가 어려워지므로 공통화가 필요합니다. **에이전트만의 핵심 차별점: 질문하는 능력(HITL)** - 전통적인 소프트웨어는 예외 상황에서 미리 정의된 에러를 던지지만, 3.0 시대의 에이전트는 `UserAskQuestion` 기술을 통해 모호한 상황에서 사용자에게 직접 질문을 던질 수 있습니다. - 에이전트는 삭제나 배포처럼 되돌리기 어려운 작업, 혹은 여러 대안 중 선택이 필요한 고위험 상황에서 인간의 판단을 구하는 'Human-in-the-Loop' 구조를 가집니다. - 반면, 관습적으로 처리 가능한 일이나 안전한 반복 작업은 질문 없이 자율적으로 수행함으로써 효율성과 안정성 사이의 균형을 맞춥니다. 소프트웨어 3.0 시대에 적응하기 위해서는 모든 로직을 명시적으로 작성하려는 강박에서 벗어나야 합니다. 대신 계층 분리, 추상화, 단일 책임 원칙과 같은 전통적인 소프트웨어 공학의 정수를 에이전트 설계에 투영하여, LLM을 단순한 자동완성 도구가 아닌 신뢰할 수 있는 협력자로 구축하는 능력이 핵심 경쟁력이 될 것입니다.