nlp - Google Research

google 2026년 1월 22일

Small models, big results: Achieving superior intent extraction through decomposition (새 탭에서 열림)

구글 연구진은 대규모 멀티모달 모델(LLM) 대신 소형 모델을 사용하여 사용자의 UI 상호작용 의도를 효과적으로 추출하는 '분해(Decomposition)' 접근 방식을 제안했습니다. 이 방법은 전체 과정을 각 화면별 요약과 최종 의도 추출이라는 두 단계로 나누어 처리함으로써, 개인정보 보호와 비용 효율성이 중요한 온디바이스(On-device) 환경에서도 대형 모델인 Gemini Pro에 비견되는 높은 성능을 기록했습니다. 결과적으로 복잡한 추론 과정을 세분화하는 것만으로도 소형 모델의 한계를 극복하고 정교한 사용자 의도 파악이 가능함을 증명했습니다. ### 단계별 분해를 통한 의도 추출 워크플로우 * **1단계: 개별 화면 요약:** 사용자의 상호작용이 일어나는 각 화면을 소형 멀티모달 모델이 독립적으로 요약합니다. 이때 현재 화면을 중심으로 이전과 다음 화면을 포함한 3개의 화면(Sliding Window)을 참조합니다. * **요약의 구성 요소:** 모델은 "관련된 화면 컨텍스트는 무엇인가?", "사용자가 방금 수행한 작업은 무엇인가?", "이 상호작용을 통해 사용자가 달성하려는 목적은 무엇인가?(추측)"라는 세 가지 핵심 질문에 답하며 요약을 생성합니다. * **2단계: 요약본 기반 의도 추출:** 1단계에서 생성된 시계열 요약 데이터들을 입력값으로 하여, 파인튜닝된 소형 모델이 최종적으로 사용자의 전체 의도를 한 문장으로 추출합니다. ### 소형 모델의 성능 극대화 기술 * **레이블 정제(Label Preparation):** 학습 데이터의 의도 문장에 요약본에 없는 세부 정보가 포함되어 있으면 모델이 환각(Hallucination)을 일으킬 수 있습니다. 이를 방지하기 위해 요약본에 포함되지 않은 정보는 학습용 레이블에서 미리 제거하는 과정을 거칩니다. * **추측 데이터의 전략적 제거:** 1단계에서 생성한 '사용자 목적에 대한 추측' 데이터는 1단계 요약의 품질은 높여주지만, 2단계 의도 추출 시에는 오히려 혼란을 줄 수 있습니다. 따라서 최종 의도 추출 단계에서는 이 추측 부분만 제외하고 실제 행동 요약만 활용하는 것이 성능 향상에 도움이 됨을 확인했습니다. * **자동화 데이터셋 활용:** 고품질의 의도 문장 예시를 학습시키기 위해, 의도와 행동 시퀀스가 잘 매칭된 공개 자동화 데이터셋을 활용하여 모델을 파인튜닝했습니다. ### Bi-Fact 기반의 정밀한 성능 평가 * **원자적 사실(Atomic Facts) 분해:** 모델이 예측한 의도와 실제 정답(Reference) 의도를 더 이상 쪼갤 수 없는 최소 단위인 '원자적 사실'들로 분해합니다. (예: "런던행 편도 항공권" -> "런던행 항공권", "편도 여정"으로 분해) * **정밀도와 재현율 측정:** 분해된 사실들을 바탕으로 모델이 예측한 사실 중 정답이 얼마나 있는지(Precision), 그리고 정답 중 모델이 얼마나 맞췄는지(Recall)를 계산하여 F1 점수를 산출합니다. * **단계별 오류 추적:** 이 평가 방식을 통해 요약 단계에서 정보가 누락되었는지, 아니면 추출 단계에서 환각이 발생했는지를 정교하게 추적하여 시스템을 개선했습니다. ### 실험 결과 및 성과 * **대형 모델 수준의 성능:** 분해 전략을 적용한 Gemini 1.5 Flash 8B 모델은 훨씬 거대한 모델인 Gemini 1.5 Pro와 대등한 수준의 F1 점수를 기록했습니다. * **기존 기법 대비 우위:** 단순한 Chain-of-Thought(CoT) 프롬프팅이나 엔드투엔드(E2E) 파인튜닝 방식보다 모바일 및 웹 환경 모두에서 일관되게 뛰어난 성능을 보였습니다. * **실용적 가치:** 저비용·고속 처리가 가능한 소형 모델로도 복잡한 UI 궤적을 이해할 수 있게 됨에 따라, 향후 모바일 기기 내에서 개인정보 노출 없이 실시간으로 사용자를 돕는 지능형 비서 기능의 핵심 기술로 활용될 전망입니다.

nlp gemini multimodal-ai fine-tuning+4

google 2025년 12월 14일

Gemini provides automated feedback for theoretical computer scientists at STOC 2026 (새 탭에서 열림)

Google Research는 이론 컴퓨터 과학 분야의 최고 권위 학회인 STOC 2026 제출 논문을 대상으로, Gemini를 활용한 자동 피드백 도구를 실험적으로 도입했습니다. 이 도구는 복잡한 논리 구조와 수식을 검증하여 인간 연구자가 수개월 동안 발견하지 못한 치명적인 오류를 24시간 이내에 찾아내는 성과를 거두었습니다. 결과적으로 참여 저자의 97%가 피드백이 유용했다고 답하며, AI가 전문적인 연구 워크플로우를 보조하는 강력한 협업 도구가 될 수 있음을 증명했습니다. **추론 확장 기술을 통한 수학적 엄밀성 확보** * Gemini 2.5 Deep Think의 고급 버전에 적용된 '추론 확장(Inference Scaling)' 메서드를 활용하여 단순한 선형적 사고를 넘어 여러 해결 경로를 동시에 탐색합니다. * 다양한 추론 및 평가 흔적(traces)을 결합함으로써 LLM 특유의 환각 현상을 줄이고, 논문의 가장 핵심적인 논리적 결함에 집중할 수 있도록 최적화되었습니다. **구조화된 피드백 제공 방식** * 저자들에게는 논문의 기여도 요약, 주요 정리(Theorem) 및 보조 정리(Lemma)에 대한 구체적인 오류 지적 및 개선 제안, 오타 및 단순 교정 사항이 포함된 체계적인 리포트가 제공됩니다. * 단순한 문구 수정을 넘어 변수 이름의 불일치, 부등식의 잘못된 적용, 증명 과정에서의 논리적 공백 등 기술적인 디테일을 심층 분석합니다. **실제 연구 현장에서의 성과와 사용자 반응** * 실험에 참여한 논문의 80% 이상이 AI 리뷰를 선택했으며, 저자들은 수개월간 발견하지 못했던 '논문 전체를 부정하게 만드는 치명적인 버그'를 AI가 찾아냈다는 점에 주목했습니다. * 설문 결과 참여자의 97%가 재사용 의사를 밝혔으며, 81%는 논문의 명확성과 가독성이 크게 향상되었다고 평가했습니다. * 인간 리뷰어와 달리 중립적인 톤으로 신속하게(2일 이내) 피드백을 제공한다는 점이 큰 장점으로 꼽혔습니다. **전문가와 AI의 협업 모델 및 한계점** * 모델이 복잡한 표기법이나 그림을 해석하는 과정에서 간혹 환각을 일으키기도 하지만, 해당 분야의 전문가인 저자들은 AI의 출력물에서 '노이즈'를 걸러내고 유익한 통찰만을 선택적으로 수용하는 능력을 보여주었습니다. * 이는 AI가 인간을 대체하는 것이 아니라, 전문가의 판단을 돕고 검증의 시작점 역할을 수행하는 '보조적 파트너'로서 최적화되어 있음을 시사합니다. **교육적 가치와 미래 전망** * 설문에 응한 연구자의 75%는 이 도구가 학생들에게 수학적 엄밀성과 논문 작성법을 교육하는 데 큰 가치가 있다고 응답했습니다. * 연구 커뮤니티의 88%는 연구 프로세스 전반에 걸쳐 이러한 도구를 지속적으로 사용하기를 희망하고 있으며, Google은 향후 동료 검토(Peer Review) 과정을 대체하는 것이 아닌, 이를 보완하고 강화하는 방향으로 기술을 발전시킬 계획입니다. 연구자들은 이 도구를 단순한 자동 검토기가 아닌, 연구 초기 단계부터 논리의 빈틈을 메워주는 '상시 접속 가능한 동료 연구자'로 활용할 것을 권장합니다. 특히 복잡한 증명이 포함된 논문을 투고하기 전, 예상치 못한 논리적 오류를 사전에 필터링하는 용도로 매우 유용합니다.

nlp ai llm gen-ai+5

google 2025년 9월 23일

AfriMed-QA: Benchmarking large language models for global health (새 탭에서 열림)

Google Research와 아프리카 현지 파트너들은 아프리카 보건 의료 맥락에 특화된 최초의 대규모 의료 벤치마크 데이터셋인 'AfriMed-QA'를 개발했습니다. 이 데이터셋은 기존 서구권 중심의 의료 벤치마크가 반영하지 못했던 아프리카 특유의 질병 분포, 언어적 특성, 문화적 배경을 포함하여 LLM의 실질적인 성능을 평가하도록 설계되었습니다. 연구 결과 대규모 모델일수록 높은 정확도를 보였으며, 이 데이터셋은 Google의 최신 의료 특화 모델인 MedGemma 학습에도 활용되었습니다. ### AfriMed-QA 데이터셋의 구성과 특징 * **데이터 규모 및 구성**: 약 15,000개의 임상 질문과 답변으로 이루어져 있으며, 4,000개 이상의 전문가용 객관식(MCQ), 1,200개 이상의 단답형(SAQ), 10,000개의 소비자 질의(CQ)를 포함합니다. * **광범위한 출처**: 아프리카 12개국, 60개 이상의 의과대학에서 온 621명의 기여자가 참여하여 데이터를 구축했습니다. * **전문 분야 포괄**: 산부인과, 신경외과, 내과, 응급의학, 전염병 등 총 32개의 세부 의료 전공 분야를 망라합니다. * **수집 플랫폼**: Intron Health가 개발한 웹 기반 크라우드소싱 플랫폼을 활용하여 아프리카 현지의 다양한 억양과 다국어 환경을 반영할 수 있는 인터페이스를 구축했습니다. ### 지역적 맥락 반영의 필요성 및 가치 * **분포 변화 대응**: 기존 USMLE MedQA와 같은 데이터셋은 서구 중심의 데이터에 치우쳐 있어, 아프리카 지역의 질병 패턴이나 증상의 맥락적 차이를 평가하는 데 한계가 있었습니다. * **언어적 다양성**: 영어를 사용하더라도 지역마다 다른 언어적 변종(linguistics)과 현지 지식을 정확히 이해해야 실질적인 의료 지원이 가능합니다. * **사회적 영향력**: 본 연구는 저자원 환경에서 LLM이 임상 진단 정확도를 높이고 다국어 의사결정 지원 도구로 기능할 수 있음을 입증하여 ACL 2025에서 '최우수 사회적 영향 논문상'을 수상했습니다. ### LLM 성능 평가 및 시사점 * **평가 대상**: 소형부터 대형 모델에 이르는 총 30개의 일반 및 바이오메디컬 LLM(오픈 소스 및 폐쇄형 포함)을 대상으로 평가를 진행했습니다. * **평가 방법론**: 객관식은 정답 선택 정확도를 측정하고, 단답형은 참조 답변과의 문장 수준 중첩도 및 의미적 유사성을 분석했습니다. * **모델 크기와 성능의 상관관계**: 대규모 모델이 소형 모델보다 AfriMed-QA에서 더 높은 성능을 보였는데, 이는 온디바이스(On-device)나 엣지 배포가 필요한 저자원 환경에서 소형 전문 모델의 개선이 필요함을 시사합니다. ### 데이터 공개 및 향후 활용 * **오픈 소스화**: 아프리카 보건 의료 AI 발전을 위해 벤치마크 데이터셋은 Hugging Face에, 평가 코드는 GitHub에 전면 공개되었습니다. * **실제 모델 적용**: 이 데이터셋은 Google의 최신 의료 특화 오픈 모델인 'MedGemma'의 학습 및 검증에 직접적으로 활용되었습니다. * **확장성**: 본 프로젝트에서 사용된 데이터 수집 및 평가 방법론은 디지털화된 벤치마크가 부족한 다른 지역(locale)에도 확장 적용될 수 있는 가이드라인을 제시합니다.

nlp ai llm benchmarking+5

google 2025년 8월 25일

A scalable framework for evaluating health language models (새 탭에서 열림)

구글 리서치는 건강 분야 대규모 언어 모델(LLM)의 성능을 정밀하고 효율적으로 평가하기 위한 새로운 프레임워크인 '적응형 정밀 불리언 루브릭(Adaptive Precise Boolean rubrics)'을 공개했습니다. 이 방법론은 복잡하고 주관적이기 쉬운 평가 기준을 세분화된 예/아니오(Yes/No) 질문으로 변환하고, 생성된 답변과 관련된 질문만 동적으로 필터링하여 평가 효율성을 극대화합니다. 결과적으로 기존 리커트(Likert) 척도 방식보다 평가 시간을 50% 이상 단축하면서도 평가자 간 일치도(Inter-rater reliability)를 크게 향상시키는 성과를 거두었습니다. ## 정밀 불리언 루브릭의 설계 원리 * **복잡한 기준의 세분화**: 기존의 서술형 답변이나 5점 척도(Likert scale) 방식은 평가자의 주관이 개입될 여지가 많아 일관성이 떨어집니다. 이를 해결하기 위해 평가 항목을 아주 작은 단위의 불리언(Boolean, 참/거짓) 질문으로 쪼개어 평가자의 판단을 단순화했습니다. * **객관성 및 일관성 확보**: 예/아니오 형태의 단순한 질문 구조는 평가자 간의 해석 차이를 줄여주며, 결과적으로 내급 상관 계수(ICC)로 측정되는 평가자 간 신뢰도를 대폭 높여줍니다. * **대사 건강 도메인 적용**: 당뇨병, 심혈관 질환, 비만 등 복잡한 전문 지식이 필요한 대사 건강 분야를 대상으로 루브릭을 설계하여 실무적인 유효성을 검증했습니다. ## 적응형 필터링을 통한 효율성 극대화 * **질문 수 폭증 문제 해결**: 평가 기준을 세분화하면 전체 질문 수가 급격히 늘어나 인간 평가자의 부담이 커지는 문제가 발생합니다. 이를 해결하기 위해 '적응형(Adaptive)' 메커니즘을 도입했습니다. * **LLM 기반 자동 분류**: 제미나이(Gemini) 모델을 제로샷 분류기로 활용하여, 사용자의 질문과 모델의 답변 내용을 분석한 뒤 해당 상황에 꼭 필요한 핵심 루브릭 질문만 동적으로 선별합니다. * **전문가 검증을 통한 신뢰 확보**: 의료 전문가 3인의 교차 검증을 통해 '인간 적응형(Human-Adaptive)' 기준 데이터를 구축하고, 모델이 필터링한 질문 세트가 실제 의학적 관점에서도 타당한지 확인했습니다. ## 평가 신뢰도 및 성능 지표 개선 * **평가 시간 50% 단축**: 적응형 루브릭을 적용한 결과, 기존 리커트 척도 방식보다 평가에 소요되는 시간을 절반 이상 줄일 수 있었으며 이는 대규모 모델 평가의 확장성을 확보해 줍니다. * **신뢰도 지표 향상**: 인간 전문가와 비전문가, 그리고 자동화된 평가 도구 간의 상관관계가 기존 방식보다 높게 나타났으며, 이는 단순화된 점수 체계가 오히려 더 높은 품질의 신호를 제공함을 시사합니다. * **모델 품질 민감도 측정**: 세분화된 불리언 루브릭은 모델 답변의 미세한 결함이나 개선이 필요한 지점을 더 정확하게 식별해내며, 이를 통해 체계적인 모델 고도화가 가능해집니다. 이 프레임워크는 건강 및 의료와 같이 높은 안전성과 정확성이 요구되는 전문 분야에서 LLM을 평가할 때 직면하는 비용과 신뢰성 문제를 동시에 해결할 수 있는 실용적인 대안을 제시합니다. 특히 인간의 전문적인 판단과 모델의 자동화된 필터링을 결합함으로써 차세대 의료 AI 서비스의 검증 표준으로 활용될 가능성이 높습니다.

nlp ai llm gemini+4

google 2025년 8월 11일

Enabling physician-centered oversight for AMIE (새 탭에서 열림)

구글 딥마인드가 발표한 g-AMIE(guardrailed-AMIE)는 환자의 병력을 청취하고 진단 정보를 정리하는 의료용 AI 시스템으로, 의사의 최종 감독을 전제로 설계되었습니다. 이 시스템은 환자에게 직접적인 의료 조언을 제공하지 못하도록 엄격한 가드레일을 적용하되, 대신 의사가 검토하고 승인할 수 있는 상세한 임상 보고서를 생성합니다. 가상 임상 시험 결과, g-AMIE의 진단 정확도와 환자 소통 능력은 동일한 제약 조건 하의 인간 의료 전문가보다 우수한 것으로 평가되어 의료 AI의 안전한 도입 가능성을 제시했습니다. ### 의사 중심의 감독 체계와 비동기식 협업 * 의료 행위의 법적 책임과 전문성을 보장하기 위해 AI가 독자적으로 진단하는 대신, 전문의가 AI의 결과물을 검토하고 승인하는 '의사 중심 감독' 프레임워크를 채택했습니다. * AI가 환자와 대화하며 병력을 청취하는 동안 전문의는 다른 업무를 수행할 수 있으며, 이후 AI가 요약한 정보를 비동기적으로 검토함으로써 진료 효율성을 극대화합니다. * Gemini 2.0 Flash를 기반으로 구축되었으며, 의사가 진단 및 관리 계획을 수정·승인할 수 있도록 설계된 전용 웹 인터페이스인 '클리니션 콕핏(Clinician Cockpit)'을 제공합니다. ### 세분화된 멀티 에이전트 시스템 구조 * **대화 에이전트:** 일반적인 병력 청취부터 초기 진단 가설 검증을 위한 맞춤 질문, 환자의 궁금증 해소에 이르는 3단계 프로세스를 통해 고품질의 대화를 수행합니다. * **가드레일 에이전트:** AI가 환자에게 개별화된 의료 조언이나 진단을 직접 내리지 않도록 실시간으로 모든 답변을 감시하고, 규정을 준수하도록 문구를 재구성합니다. * **SOAP 노트 에이전트:** 수집된 정보를 주관적 기술(Subjective), 객관적 자료(Objective), 평가(Assessment), 계획(Plan)의 SOAP 형식으로 자동 생성하며, 의사가 환자에게 전달할 메시지 초안까지 함께 작성합니다. ### 임상 수행 능력 평가 (OSCE) 결과 * 60개의 환자 시나리오를 활용해 일반의(PCP) 및 간호사/의사 보조사(NP/PA) 그룹과 g-AMIE의 성능을 무작위 대조 시험으로 비교했습니다. * 감독 의사들과 독립적인 평가단은 g-AMIE가 도출한 차별 진단(Differential Diagnosis)과 환자 관리 계획이 인간 전문가 그룹보다 더 우수하다고 평가했습니다. * 환자 역할을 맡은 연기자들 또한 인간 의료진이 작성한 메시지보다 g-AMIE가 작성한 환자용 메시지에 대해 더 높은 선호도와 만족도를 보였습니다. g-AMIE는 AI의 데이터 처리 효율성과 전문의의 임상적 책임감을 결합한 새로운 의료 협업 모델의 이정표를 제시합니다. 비록 AI 시스템에 특화된 환경에서 도출된 결과라는 점을 고려해야 하나, 가드레일을 통해 안전성을 확보하면서도 의사의 업무 부하를 줄이는 이러한 기술적 접근은 향후 실제 진료 현장에 AI를 도입할 때 핵심적인 표준이 될 것으로 보입니다.

nlp ai gen-ai multi-agent-systems+4

google 2025년 6월 26일

REGEN: Empowering personalized recommendations with natural language (새 탭에서 열림)

Google Research는 추천 시스템이 단순히 다음 아이템을 예측하는 것을 넘어, 자연어로 사용자와 상호작용하고 추천 이유를 설명할 수 있도록 돕는 새로운 벤치마크 데이터셋 'REGEN(Reviews Enhanced with GEnerative Narratives)'을 공개했습니다. 이 데이터셋은 아마존 상품 리뷰 데이터를 기반으로 Gemini 1.5 Flash를 활용해 합성된 사용자 비평과 개인화된 내러티브를 추가하여 구축되었습니다. 연구 결과, LLM 기반의 모델은 자연어 피드백을 통해 추천의 정확도를 높이는 동시에 사용자 맞춤형 설명을 효과적으로 생성할 수 있음을 입증했습니다. ## REGEN 데이터셋의 구성과 특징 * **기존 데이터의 확장:** 널리 사용되는 아마존 상품 리뷰 데이터셋을 기반으로 하되, 대화형 추천 시스템에 필요한 요소들을 Gemini 1.5 Flash로 합성하여 보완했습니다. * **사용자 비평(Critiques):** "더 많은 저장 용량이 필요해"와 같이 사용자가 현재 추천된 아이템을 수정하거나 선호도를 구체화하는 자연어 피드백 데이터를 포함합니다. * **맥락적 내러티브(Narratives):** 단순한 아이템 노출이 아니라, 구매 이유(Purchase reasons), 제품 홍보(Product endorsements), 사용자 선호도 요약 등을 포함하여 추천의 근거를 풍부하게 제공합니다. ## 추천과 생성을 위한 모델 아키텍처 * **하이브리드 방식 (FLARE + Gemma):** 협업 필터링 기반의 순차적 추천 모델인 FLARE가 아이템을 예측하면, 경량 LLM인 Gemma 2B가 해당 아이템에 대한 설명을 생성하는 이원화된 구조를 테스트했습니다. * **통합 모델 (LUMEN):** 단일 LLM이 비평 이해, 아이템 추천, 내러티브 생성을 모두 수행하는 모델입니다. 어휘집과 임베딩 레이어를 수정하여 아이템 ID와 텍스트 토큰을 하나의 생성 과정에서 처리하도록 설계되었습니다. * **공동 작업 수행:** 모델은 사용자의 과거 이력과 자연어 비평을 동시에 입력받아 적절한 아이템을 추천함과 동시에 그에 걸맞은 자연어 설명을 출력하는 엔드 투 엔드(End-to-End) 학습을 진행합니다. ## 실험 결과 및 성능 향상 * **비평의 효과:** 입력 데이터에 사용자의 자연어 비평을 포함했을 때 추천 성능이 일관되게 향상되었습니다. Office 도메인 데이터 기준, 상위 10개 추천 결과 내에 정답이 포함될 확률(Recall@10)이 0.124에서 0.1402로 크게 개선되었습니다. * **LLM의 다재다능함:** REGEN으로 학습된 모델들은 기존의 전문화된 추천 알고리즘에 필적하는 성능을 보이면서도, 사용자의 요구사항을 반영한 고품질의 개인화된 설명을 생성할 수 있었습니다. 추천 시스템의 미래는 단순히 상품을 나열하는 것이 아니라 사용자와 소통하며 맥락을 이해하는 방향으로 나아가고 있습니다. REGEN 데이터셋은 LLM이 추천 엔진의 핵심 역할을 수행할 수 있음을 보여주며, 개발자들은 이를 활용해 더 설명 가능하고(explainable) 대화에 능숙한 차세대 커머스 AI를 구축할 수 있을 것입니다.

nlp ai llm gemini+4

google 2025년 5월 5일

Making complex text understandable: Minimally-lossy text simplification with Gemini (새 탭에서 열림)

구글 리서치는 전문적인 지식을 일반 사용자가 더 쉽게 이해할 수 있도록 정보의 손실을 최소화하면서 텍스트를 단순화하는 Gemini 기반 시스템을 공개했습니다. 이 시스템은 단순히 정보를 생략하는 요약이나 새로운 내용을 덧붙이는 설명과 달리, 원문의 세부 사항과 뉘앙스를 완벽하게 유지하면서 가독성만을 높이는 '고충실도(High-fidelity) 단순화'를 목표로 합니다. 대규모 무작위 대조 실험 결과, 이 기술은 사용자의 정보 이해도를 높이는 동시에 텍스트를 읽을 때 느끼는 인지적 부담을 유의미하게 감소시키는 것으로 나타났습니다. ### 최소 손실 텍스트 단순화의 정의와 목표 * **요약과의 차별화**: 정보를 누락시키는 일반적인 요약과 달리, 원문의 모든 핵심 주장과 세부 사항을 보존하는 '최소 손실(Minimally-lossy)' 방식을 지향합니다. * **정확성 유지**: 의학, 법률, 금융 등 전문 용어가 많고 복잡한 텍스트에서 의미 왜곡 없이 문장 구조와 단어 선택을 최적화하여 명확성을 확보합니다. * **사용자 임파워먼트**: 복잡한 정보 때문에 의사결정에 어려움을 겪는 사용자가 스스로 텍스트를 변환하여 내용을 파악할 수 있도록 돕습니다. ### Gemini를 활용한 자동 평가 및 프롬프트 정제 루프 * **가독성 및 충실도 평가**: 기존의 단순한 가독성 지표(Flesch-Kincaid 등)를 넘어, Gemini가 1~10점 척도로 가독성을 정밀 평가하며 원문과 단순화된 텍스트 간의 정보 일치 여부를 분석합니다. * **LLM 기반 프롬프트 최적화**: Gemini 1.5 Pro가 Gemini 1.5 Flash가 생성한 결과물을 평가하고, 이를 바탕으로 더 나은 결과를 낼 수 있도록 프롬프트를 스스로 수정하는 루프를 구축했습니다. * **반복적인 성능 향상**: 수동 프롬프트 엔지니어링의 한계를 극복하기 위해 총 824회의 자동 반복(Iteration)을 거쳐 최적의 단순화 전략을 발견했습니다. ### 대규모 연구를 통한 실증적 효과 검증 * **연구 설계**: 4,500명 이상의 참가자를 대상으로 의학, 항공우주, 철학 등 복잡도가 높은 31개 분야의 실제 텍스트를 활용하여 무작위 대조 실험을 진행했습니다. * **이해도 측정**: 단순화된 텍스트를 읽은 그룹은 원문을 읽은 그룹보다 객관식 문제(MCQ) 정답률이 높았으며, 텍스트를 참고할 수 없는 상황에서도 더 높은 이해도를 보였습니다. * **인지 부하 감소**: NASA-TLX(작업 부하 지수)를 활용해 측정한 결과, 사용자들은 단순화된 텍스트를 읽을 때 정신적 노력이 덜 들고 더 높은 자신감을 느낀다고 답했습니다. 이러한 기술적 성과는 현재 iOS용 구글 앱의 'Simplify' 기능을 통해 실제 서비스에 적용되었으며, 전문가 수준의 지식 장벽을 낮추어 정보의 민주화를 실현하는 데 기여하고 있습니다. 전문가의 언어를 대중의 언어로 정확하게 번역해야 하는 다양한 도메인에서 Gemini의 이 시스템은 매우 유용한 도구가 될 것입니다.

nlp ai llm gemini+3

google 2025년 5월 1일

Amplify Initiative: Localized data for globalized AI (새 탭에서 열림)

구글 리서치가 발표한 ‘엠플리파이 이니셔티브(Amplify Initiative)’는 전 세계의 다양한 언어와 문화를 반영한 데이터를 수집하여 AI의 지역적 한계를 극복하려는 개방형 커뮤니티 기반 데이터 플랫폼입니다. 이 프로젝트는 현지 전문가들과의 협업을 통해 각 지역의 특수한 요구사항과 가치관이 담긴 고품질 데이터를 구축함으로써, 특정 지역에 치우치지 않는 책임감 있는 글로벌 AI 생태계를 조성하는 것을 목표로 합니다. 특히 사하라 이남 아프리카에서의 성공적인 파일럿 사례를 통해 데이터 저자권 인정과 보상을 결합한 지속 가능한 데이터 수집 모델의 가능성을 증명했습니다. **엠플리파이 이니셔티브의 핵심 가치** * **참여형 데이터 공동 생성:** 지역 연구자들과 커뮤니티가 직접 데이터 요구사항을 정의하고, 현지 문제를 해결하는 데 필요한 구조화된 데이터셋을 함께 만듭니다. * **글로벌 사우스(Global South)를 위한 개방형 데이터:** 수집된 다국어 데이터셋은 미세 조정(Fine-tuning) 및 평가용으로 공개되어, 저개발 국가의 연구자들이 현지 맞춤형 AI 도구를 개발할 수 있도록 지원합니다. * **기여자 인식 및 보상:** 데이터 생성에 참여한 전문가들에게 저자권 부여, 전문 자격증 제공, 연구 기여 인정 등의 보상 체계를 운영하여 참여 동기를 강화합니다. **사하라 이남 아프리카 파일럿 프로젝트 성과** * **전문가 협업 네트워크:** 우간다 마케레레 대학교 AI 연구소와 협력하여 가나, 케냐, 말라위, 니제르 등 5개국에서 건강, 교육, 금융 분야의 전문가 259명을 온보딩했습니다. * **대규모 다국어 데이터셋 구축:** 155명의 전문가가 직접 참여하여 7개 언어로 작성된 8,091개의 주석 달린 적대적 쿼리(Adversarial queries) 데이터셋을 생성했습니다. * **현지 맞춤형 콘텐츠:** 스와힐리어 기반의 미분별 정보 벤치마킹 데이터나 인도의 금융 문해력이 낮은 사용자를 위한 용어 단순화 데이터 등 실질적인 지역 난제 해결에 초점을 맞췄습니다. **데이터 수집 및 검증 프로세스** * **도메인 전문가 기반 접근:** 보건 의료 종사자나 교사와 같이 특정 분야의 전문 지식을 갖춘 인력을 선발하여 온라인에 존재하지 않는 심층적인 지식을 캡처합니다. * **전용 안드로이드 앱 활용:** 프라이버시가 보호되는 전용 앱을 통해 교육 자료를 배포하고, 책임감 있는 AI 실천 방안과 편향성 방지 교육을 실시합니다. * **자동화된 품질 관리:** 앱 내 자동 피드백 시스템을 통해 중복되거나 의미론적으로 유사한 쿼리의 생성을 방지하고, 데이터 수집 목표와의 정렬을 실시간으로 확인합니다. * **정교한 주석(Annotation) 작업:** 전문가가 자신의 도메인에 특화된 테마와 주제별로 각 쿼리에 상세한 주석을 달아 데이터의 구조적 완성도를 높입니다. 엠플리파이 이니셔티브는 아프리카에서의 성과를 바탕으로 향후 브라질과 인도 등으로 범위를 확장하여, 온라인에서 접근하기 어려운 현지 지식을 데이터화하는 혁신적인 방법론을 지속적으로 발굴할 계획입니다. AI 모델의 성능만큼이나 데이터의 다양성과 대표성이 중요한 시점에서, 이러한 커뮤니티 중심의 데이터 구축 방식은 진정한 의미의 '글로벌 AI'를 실현하는 필수적인 기반이 될 것입니다.

nlp ai llm gen-ai+5

google 2025년 4월 16일

Teaching machines the language of biology: Scaling large language models for next-generation single-cell analysis (새 탭에서 열림)

예일 대학교와 구글 리서치는 복잡한 단일 세포 RNA 시퀀싱(scRNA-seq) 데이터를 텍스트 형식으로 변환하여 대규모 언어 모델(LLM)이 해석할 수 있도록 하는 'C2S-Scale(Cell2Sentence-Scale)'을 공개했습니다. 이 기술은 유전자 발현 수준에 따라 유전자 이름을 정렬해 '세포 문장(cell sentence)'을 생성함으로써, 고차원의 생물학적 데이터를 자연어처럼 처리하고 분석할 수 있는 혁신적인 접근법을 제시합니다. 이를 통해 연구자들은 전문적인 코드 없이도 세포의 상태나 약물 반응 등을 일상 언어로 질문하고 답변을 얻을 수 있는 대화형 분석 환경을 갖게 되었습니다. ### 세포 데이터를 문장으로 변환하는 메커니즘 * 단일 세포의 유전자 발현 프로필을 수치 데이터가 아닌, 발현량이 높은 순서대로 유전자 이름을 나열한 '세포 문장'으로 변환합니다. * 유전자 이름, 세포 유형, 실험 메타데이터 등 이미 텍스트로 존재하는 생물학적 정보와 결합하여 LLM이 생물학적 문맥을 자연스럽게 학습하도록 설계되었습니다. * 자연어를 인터페이스로 사용함으로써 복잡한 고차원 데이터를 직관적이고 유연하게 해석할 수 있으며, 기존 LLM 인프라를 그대로 활용할 수 있는 확장성을 확보했습니다. ### C2S-Scale 모델 제품군 및 아키텍처 * 구글의 오픈 모델인 '젬마(Gemma)' 아키텍처를 기반으로 구축되었으며, 실제 전사체 데이터와 생물학적 문헌 등 10억 개 이상의 토큰을 포함한 데이터셋으로 학습되었습니다. * 연구자의 컴퓨팅 자원과 목적에 맞게 선택할 수 있도록 4억 1,000만 개(410M)부터 270억 개(27B)의 매개변수를 가진 다양한 크기의 모델 라인업을 제공합니다. * 모든 모델은 오픈 소스로 공개되어 HuggingFace와 GitHub를 통해 누구나 미세 조정(Fine-tuning)하거나 연구에 즉시 활용할 수 있습니다. ### 자연어를 통한 생물학 데이터 해석 및 성능 * **대화형 질의응답:** "이 T 세포가 항암 치료제에 어떻게 반응할까?"와 같은 질문에 대해 모델이 세포 데이터와 사전 학습된 생물학 지식을 결합하여 자연어로 답변합니다. * **자동 데이터 요약:** 단일 세포의 유형 식별부터 조직 전체의 실험 결과 요약까지, 복잡한 데이터를 생물학적 의미가 담긴 텍스트로 자동 생성하여 연구자의 해석을 돕습니다. * **생물학적 스케일링 법칙:** 일반적인 LLM과 마찬가지로 모델의 크기가 커질수록 세포 유형 주석(Annotation) 및 데이터 생성 능력이 예측 가능한 수준으로 정교해지는 '스케일링 법칙'이 적용됨을 입증했습니다. C2S-Scale은 생물학 데이터를 '언어'의 영역으로 통합함으로써 전문가 위주의 단일 세포 분석 문턱을 크게 낮췄습니다. 생물학 연구자들은 공개된 모델을 활용해 자신의 실험 데이터를 시각화하는 수준을 넘어, 세포와 직접 대화하며 가설을 검증하는 새로운 차원의 연구 워크플로우를 구축해 볼 수 있을 것입니다.

nlp ai llm gemma+5

google 2025년 4월 1일

ECLeKTic: A novel benchmark for evaluating cross-lingual knowledge transfer in LLMs (새 탭에서 열림)

Google Research가 발표한 ECLeKTic은 대규모 언어 모델(LLM)이 특정 언어로 학습한 지식을 다른 언어로 얼마나 잘 전달하는지 평가하기 위해 설계된 새로운 벤치마크입니다. 이 데이터셋은 특정 언어의 위키피디아에만 존재하는 고유 정보를 활용하여, 모델이 소스 언어에서 습득한 지식을 12개의 대상 언어에서 폐쇄형 질문 답변(Closed-book QA) 형식으로 인출할 수 있는지 측정합니다. 최신 모델인 Gemini 2.5 Pro가 52.6%의 성공률을 기록하며 가장 우수한 성능을 보였으나, 이는 여전히 언어 간 지식 전이 능력을 개선할 여지가 많음을 시사합니다. **언어 간 지식 접근성 격차의 문제** * 인간은 여러 언어를 구사할 때 언어와 상관없이 동일한 지식에 접근할 수 있지만, 현재의 LLM은 특정 언어(예: 인도네시아어)로 질문했을 때만 답변하고 다른 언어(예: 독일어)로 질문하면 답하지 못하는 지식의 파편화 현상을 보입니다. * 이러한 격차는 정보가 적은 언어 사용자들의 지식 접근권을 제한할 뿐만 아니라, 정보가 많은 언어 사용자들 역시 전 세계의 다양한 지식을 활용하지 못하게 만듭니다. * ECLeKTic은 모델의 내부 지식만을 이용하는 블랙박스 평가 방식을 채택하여, 모델의 내부 구조를 알 수 없는 상용 모델(Proprietary models)까지도 쉽게 평가할 수 있도록 설계되었습니다. **데이터셋 구성 및 검증 프로세스** * 한국어, 영어, 인도네시아어, 힌디어 등 총 12개 언어를 포함하며, 특정 언어의 위키피디아에만 단독으로 존재하는 문서를 기반으로 384개의 고유 질문과 4,224개의 번역된 예시를 생성했습니다. * 질문의 타당성을 높이기 위해 원어민 검수자들이 '폐쇄형 질문 답변 가능 여부'와 '특정 문화권의 고유 지식 여부'를 엄격히 필터링했습니다. * '탈맥락화(Decontextualization)' 과정을 통해 질문 내 모호한 대명사나 고유 명사를 구체화(예: "대법원"을 "이스라엘 대법원"으로 수정)하여 번역된 언어에서도 충분히 답변 가능한 형태를 갖추었습니다. * 자동 번역 후 다시 원어민이 번역의 정확성을 검증하고, 원어의 의미가 훼손되어 번역이 불가능한 사례는 데이터셋에서 제외했습니다. **벤치마크 결과 및 성능 지표** * 핵심 지표인 '전체 성공률(Overall success)'은 모델이 소스 언어와 대상 언어 모두에서 질문에 올바르게 답한 비율을 측정합니다. * 8개의 주요 LLM을 테스트한 결과, Gemini 2.0 Pro는 41.6%의 성공률을 보였으며, 최신 버전인 Gemini 2.5 Pro는 52.6%를 달성하여 성능 개선을 입증했습니다. * 결과적으로 최고 수준의 모델조차 절반 수준의 성공률에 머물러 있어, 모든 사용자가 언어 장벽 없이 공평하게 정보에 접근할 수 있는 모델을 만들기 위한 추가적인 연구가 필요함을 보여줍니다. ECLeKTic은 Kaggle을 통해 오픈 소스로 공개되어 있으며, 개발자들은 이를 활용해 자신들의 모델이 가진 다국어 지식 전이 성능을 정밀하게 측정하고 개선하는 지표로 삼을 수 있습니다.

nlp ai llm machine-learning+4

google 2025년 3월 20일

Deciphering language processing in the human brain through LLM representations (새 탭에서 열림)

거대 언어 모델(LLM)의 문맥적 임베딩이 실제 대화 중인 인간의 뇌 신경 활동과 선형적으로 정렬된다는 연구 결과가 발표되었습니다. 연구팀은 LLM의 내부 표현이 인간의 언어 이해 및 생성 과정을 설명하는 강력한 프레임워크가 될 수 있음을 증명했습니다. 결과적으로 이는 LLM이 단순히 성능이 뛰어난 도구를 넘어, 인간의 복잡한 언어 처리 메커니즘을 해독하는 핵심적인 열쇠로 작용할 수 있음을 시사합니다. **LLM과 인간 뇌의 언어 처리 유사성** * 기존의 심리언어학 모델은 상징적인 문법 규칙에 의존했으나, LLM은 다음 단어 예측과 강화 학습을 통해 언어의 통계적 구조를 다차원 임베딩 공간에 인코딩합니다. * 구글 리서치와 프린스턴 대학교 등 공동 연구진은 5년간의 연구를 통해 모델의 내부 표현(임베딩)과 자유로운 대화 중 발생하는 뇌 신경 활동 사이의 유사성을 탐구했습니다. * 연구 결과, 모델의 단어 수준 임베딩이 인간의 언어 중추인 브로카 영역(Broca’s area)과 상측두회(STG) 등의 활동 패턴과 긴밀하게 일치함을 확인했습니다. **Whisper 모델을 통한 신경망 분석 및 정렬** * Transformer 기반의 음성-텍스트 변환 모델인 'Whisper'를 활용해 실제 대화 중인 피험자의 뇌 신호와의 상관관계를 분석했습니다. * 분석을 위해 모델의 음성 인코더에서 추출한 '음성(Speech) 임베딩'과 디코더에서 추출한 단어 기반 '언어(Language) 임베딩'을 사용했습니다. * 두개강 내 전극(Intracranial electrodes)으로 측정된 뇌 활동 데이터에 선형 변환을 적용하여, 모델의 임베딩 값으로 뇌의 신경 신호를 예측하는 모델을 구축했습니다. **언어 이해와 생성의 신경학적 시퀀스** * **언어 이해(Comprehension):** 단어가 들릴 때 먼저 상측두회(STG)에서 음성 임베딩이 신경 활동을 예측하고, 수백 밀리초 후 브로카 영역(IFG)에서 언어 임베딩이 의미 해독 과정을 예측하는 순차적 흐름을 보입니다. * **언어 생성(Production):** 단어를 뱉기 약 500밀리초 전, 브로카 영역에서 언어 임베딩이 활동을 예측하며 발화를 계획합니다. 이후 운동 피질(MC)에서 음성 임베딩이 조음 과정을 예측하는 역순의 역동성이 관찰됩니다. * **자기 모니터링:** 발화 직후에는 자신의 목소리를 듣고 모니터링하기 위해 상측두회의 청각 영역에서 다시 한번 음성 임베딩과 신경 활동의 정렬이 나타납니다. 이 연구는 인공지능의 내부 메커니즘이 인간의 생물학적 언어 처리 과정을 모사하고 있음을 보여줍니다. 따라서 향후 뇌 기능 장애의 이해나 더 정교한 뇌-컴퓨터 인터페이스(BCI) 개발에 LLM의 임베딩 구조를 활용하는 것이 매우 효과적인 전략이 될 것입니다.

nlp ai llm transformer+4