Google Research

135 개의 포스트

research.google/blog

태그로 필터

google

글로벌 파트너십과 오픈 리소스를 통한 과학적 영향력 촉진 (새 탭에서 열림)

구글 리서치는 책임감 있고 포용적이며 엄격한 연구 원칙을 바탕으로 오픈 사이언스를 추진하며, 전 지구적 파트너십과 공개 리소스를 통해 과학적 발견의 가속화를 도모하고 있습니다. 오픈소스 소프트웨어와 데이터셋을 공유함으로써 연구자들이 성과를 재현하고 확장할 수 있는 환경을 조성하며, 이는 단순히 기술적 혁신에 머무르지 않고 전 세계적인 사회적 진보를 이끄는 촉매제 역할을 합니다. 구글은 트랜스포머 아키텍처부터 전문화된 의료 및 기후 모델에 이르기까지 다양한 자원을 공개하여 전 세계 연구 생태계의 역량을 강화하는 데 집중하고 있습니다. **글로벌 파트너십과 연구 생태계 협력** * 유씨 산타크루즈(UCSC) 유전체 연구소, 자넬리아 연구 캠퍼스, 인도 의학 연구소(AIIMS) 등 전 세계 주요 기관과 협력하여 전문 분야별 연구를 심화하고 있습니다. * 인간 범유전체 연구 컨소시엄(HPRC), 지구 바이오게놈 프로젝트(EBP), NIH BRAIN 이니셔티브와 같은 거대 글로벌 컨소시엄에 참여하여 인류 공통의 과제 해결에 기여합니다. * 인도, 한국, 일본, 호주를 시작으로 지역별 과학 개발자 커뮤니티를 구축하기 위한 투자를 확대하여 실질적인 기술 실천 공동체를 형성하고 있습니다. **분야별 핵심 오픈소스 도구 및 데이터셋** * **유전체학:** DeepVariant, DeepConsensus, DeepPolisher 등 딥러닝 기반 도구를 통해 DNA 분석의 정밀도를 높였으며, 이를 통해 전 세계적으로 250만 명의 전장 유전체 분석을 지원했습니다. * **뇌과학:** 1.4페타바이트 규모의 인간 뇌 조직 데이터셋(H01)과 쥐 시각 피질 지도(MICrONS)를 공개했으며, Neuroglancer 및 TensorStore 같은 도구로 페타스케일의 고해상도 뇌 지도를 탐색하고 분석할 수 있게 했습니다. * **지구 및 기상 모델링:** 18억 개의 건물 감지 데이터를 포함한 'Open Buildings', 하이브리드 기상 모델인 'NeuralGCM', 산불 연구를 위한 'FireBench' 등을 통해 기후 변화 대응과 재난 예측을 돕고 있습니다. * **헬스케어:** MedGemma를 포함한 의료용 파운데이션 모델(HAI-DEF)은 480만 회 이상의 다운로드를 기록 중이며, '오픈 건강 스택(OHS)'은 10개국 이상에서 6,500만 명의 수혜자를 위한 디지털 건강 솔루션 구축에 활용되고 있습니다. **오픈 사이언스가 창출한 실질적 성과** * **유전체 연구 혁신:** UCSC와의 협업을 통해 유전적 변이 식별 오류를 50% 줄였으며, 이는 인류의 다양성을 보다 정확하게 반영하는 범유전체 참조 자료 구축으로 이어졌습니다. * **기상 예측과 농업 지원:** 시카고 대학교 연구팀은 NeuralGCM을 활용해 인도 몬순의 시작을 한 달 전 예측하는 데 성공했으며, 이 정보는 3,800만 명의 인도 농민에게 전달되어 작물 재배 최적화에 기여했습니다. * **의학적 발견:** 존스 홉킨스 대학교 연구진은 구글이 공개한 H01 뇌 데이터셋을 분석하여 기존 학설에 없던 새로운 신경 세포 통신 방식을 발견했으며, 이는 알츠하이머와 같은 질환 연구에 새로운 전기를 마련했습니다. * **인도주의적 활동:** UN 난민기구(UNHCR)는 Open Buildings 데이터를 활용하여 난민 거주지의 재난 대응 샘플링을 최적화하고 해수면 상승에 따른 위험도를 평가하고 있습니다. 오픈 사이언스는 기술적 장벽을 허물고 전 세계 연구자들이 동등한 출발선에서 혁신을 이룰 수 있게 합니다. 연구자와 개발자들은 구글 리서치가 공개한 MedGemma나 NeuralGCM과 같은 특화된 모델과 방대한 데이터셋을 적극 활용함으로써, 각자의 도메인에서 연구의 재현성을 확보하고 사회적 임팩트가 큰 발견을 더 빠르게 도출할 수 있을 것입니다.

google

Four ways Google Research scientists have been using Empirical Research Assistance (새 탭에서 열림)

Google Research의 '경험적 연구 지원(Empirical Research Assistance, ERA)' 시스템은 과학자들이 전문가 수준의 소프트웨어를 생성하여 복잡한 실제 과학 문제를 해결할 수 있도록 돕는 혁신적인 AI 도구입니다. 이 기술은 단순한 개념 증명을 넘어 역학, 우주론, 기후 모니터링 등 다양한 분야에서 기존 모델을 능가하거나 풀리지 않았던 난제를 해결하며 과학적 발견의 속도를 비약적으로 높이고 있습니다. ERA는 계산 모델링의 접근성을 민주화하고, 데이터에서 더 깊은 통찰력을 추출하며, 해석 가능하고 물리적으로 정확한 솔루션을 제공하는 데 기여하고 있습니다. ### 공중보건: 독감 및 코로나19 입원 예측 * ERA를 활용해 독감, 코로나19, 호흡기 세포융합 바이러스(RSV)로 인한 미국 내 입원 환자 수를 예측하고 질병통제예방센터(CDC)에 매주 실시간 예측치를 제출하고 있습니다. * CDC의 공개 리더보드 분석 결과, Google의 예측 모델은 기존의 주요 연구 기관 및 CDC 자체 도구와 대등하거나 이를 상회하는 수준의 정확도를 기록하며 최상위권을 유지하고 있습니다. * 이는 고가의 장비나 복잡한 역학 모델링 인프라 없이도 신종 전염병을 효과적으로 추적하고 공중보건 대응력을 높일 수 있는 가능성을 보여줍니다. ### 우주론: 우주 끈과 중력 에너지 복사 문제 해결 * 초기 우주에서 형성된 것으로 추측되는 '우주 끈(Cosmic strings)'의 중력 에너지 복사 스펙트럼 산출 과정에서 발생하는 수학적 특이점 문제를 해결했습니다. * 기존에는 GPT-5를 이용해 특정 조건(90도 각도)에서의 부분적인 해만 구했으나, Google은 ERA와 'Gemini Deep Think'를 결합해 보다 복잡한 일반해와 점근 한계(asymptotic limit)에 대한 간결한 공식을 도출했습니다. * 고급 언어 모델(LLM)과 ERA의 결합이 우주론의 최전선에서 정밀하고 새로운 수학적 해법을 찾아내는 강력한 도구가 될 수 있음을 입증했습니다. ### 기후 및 지속 가능성: 기상 위성을 활용한 이산화탄소 모니터링 * 이산화탄소(CO2) 관측 전용 위성이 아닌, 10분마다 지표면을 스캔하는 일반 기상 위성(GOES East) 데이터를 활용해 고해상도 CO2 지도를 생성하는 기술을 개발했습니다. * ERA를 통해 물리 법칙이 가이드된 신경망(physics-guided neural network)을 설계했으며, 16개 파장 대역 데이터와 기상 데이터를 결합해 기존 전용 위성보다 훨씬 높은 시공간 해상도로 CO2 변화를 추적합니다. * 지상 관측 데이터와의 비교를 통해 모델의 정확성을 검증했으며, 이는 자원 집약적인 위성 미션 대신 기존 관측 자산의 가치를 극대화할 수 있는 경제적인 대안을 제시합니다. ERA는 과학자들이 방대한 데이터를 해석 가능한 지식으로 전환하고, 복잡한 물리적 공식을 코드로 구현하는 과정에서 발생하는 병목 현상을 제거해 줍니다. 이러한 AI 기반 연구 지원은 단순히 효율성을 높이는 것에 그치지 않고, 그동안 데이터 부족이나 수학적 난제로 인해 멈춰있던 영역에서 새로운 발견을 이끌어내는 핵심 동력이 될 것입니다.

google

핵심은 각도: 사진의 재구성 (새 탭에서 열림)

구글은 기존 사진의 구도와 카메라 각도를 촬영 후에 자유롭게 재구성할 수 있는 '오토 프레임(Auto frame)' 기능을 구글 포토에 도입했습니다. 이 기술은 단순한 크롭(자르기)이나 줌을 넘어, 2D 사진을 3D 장면으로 해석하고 생성형 AI를 활용해 가상의 카메라 위치에서 바라본 새로운 시점의 이미지를 구현합니다. 이를 통해 사용자는 인물의 왜곡을 바로잡거나 촬영 당시 놓쳤던 배경까지 포함된 완벽한 구도의 사진을 얻을 수 있습니다. **기존 편집 방식의 한계와 새로운 접근법** * 전통적인 크롭이나 줌 방식은 이미 고정된 시점 내에서만 작동하므로 시차(Parallax)를 변경하거나 프레임 밖의 영역을 보여줄 수 없다는 근본적인 한계가 있었습니다. * 구글의 새로운 방식은 사진을 단순한 평면이 아닌 '시간 속에 얼어붙은 3D 장면'으로 취급하여, 가상 공간 안에서 카메라의 위치와 각도를 자유롭게 이동시키는 방식을 취합니다. * 이 과정은 원래 보였던 부분을 유지하면서도 이전에 가려졌던 콘텐츠를 지능적으로 생성하여 실제와 같은 새로운 원근감을 형성합니다. **3D 장면 추정과 카메라 파라미터 최적화** * 내부적인 3D 포인트 맵(3D point map) 추정 모델을 통해 사진 속 모든 픽셀의 깊이와 표면 정보를 파악하며, 특히 인물의 정체성을 보존하기 위해 신체와 얼굴 재구성에 특화된 모델을 사용합니다. * 원래 사진 촬영 당시의 초점 거리(Focal length)를 근사치로 계산하여 가상 카메라의 위치(Pose)와 내부 파라미터(Intrinsics)를 정교하게 조정할 수 있게 합니다. * 이러한 3D 추정 단계와 이미지 생성 단계를 분리함으로써, 단순한 픽셀 변형이 아닌 물리적으로 타당한 카메라 조작이 가능해졌습니다. **생성형 잠재 확산 모델을 통한 공백 보완** * 가상 카메라를 이동시키면 원래 렌즈에 포착되지 않았던 배경 영역에 '구멍(Holes)'이 생기는데, 이를 해결하기 위해 생성형 잠재 확산 모델(Latent Diffusion Model)을 사용하여 자연스럽게 채워 넣습니다. * 이 모델은 카메라 파라미터 데이터셋을 기반으로 훈련되었으며, 렌더링된 추정치를 보정하고 보충하여 최종 이미지를 완성합니다. * 추론 시에는 특정 지역 스케일링(Regional scaling) 기법이 포함된 분류기 가이드 방식을 사용하여 원본의 핵심 콘텐츠를 충실히 유지하면서도 생성형 AI의 창의성을 발휘해 빈 공간을 메웁니다. **지능형 자동 프레이밍 및 왜곡 수정** * 머신러닝 모델이 주요 피사체의 얼굴 위치와 3D 방향을 감지하여 포트레이트 사진에 최적화된 구도를 자동으로 계산하고 제안합니다. * 특히 광각 전면 카메라로 촬영 시 발생하는 원근 왜곡(가까운 피사체가 비정상적으로 크게 보이는 현상)을 자동으로 감지합니다. * 가상 카메라의 특성을 조정해 피사체에서 물리적으로 한 발짝 뒤로 물러나 찍은 듯한 효과를 주어, 훨씬 더 자연스럽고 보기 좋은 비율을 복원합니다. 현재 이 기술은 구글 포토의 '오토 프레임' 기능 내에서 자동 편집 옵션으로 제공되고 있습니다. 사용자는 별도의 복잡한 작업 없이 클릭 한 번으로 3D 인지 기술이 적용된 최적의 구도를 추천받을 수 있으므로, 구도가 아쉬운 인물 사진이나 왜곡이 심한 셀피를 개선하는 데 유용하게 활용할 수 있습니다.

google

ReasoningBank: Enabling agents to learn from experience (새 탭에서 열림)

ReasoningBank는 에이전트가 배포된 이후에도 성공과 실패의 경험으로부터 일반화된 추론 전략을 추출하여 스스로 진화할 수 있게 돕는 새로운 메모리 프레임워크입니다. 기존 방식이 단순히 실행 기록을 저장하거나 성공 사례만 수집했던 것과 달리, ReasoningBank는 고차원의 전략적 통찰을 구조화하여 저장함으로써 에이전트의 성공률과 작업 효율성을 동시에 개선합니다. 이는 에이전트가 반복적인 실수를 방지하고 복잡한 환경에서 지속적으로 학습하는 '지속적 학습자(Continuous Learner)'로 거듭나게 하는 핵심 기술입니다. **전략적 통찰의 구조화와 추출** - ReasoningBank는 단순히 과거의 행동을 기록하는 것이 아니라, 제목(Title), 설명(Description), 내용(Content)으로 구성된 고차원의 구조화된 메모리 항목을 생성합니다. - '검색-추출-통합'의 연속적인 폐쇄 루프(Closed-loop)를 통해 작동하며, LLM-as-a-judge 기능을 활용해 에이전트의 궤적을 스스로 평가하고 통찰을 도출합니다. - 특히 실패한 경험에서 '반사실적 신호(Counterfactual signals)'를 분석하여, "무한 스크롤 함정에 빠지지 않기 위해 현재 페이지 식별자를 먼저 확인하라"와 같은 예방적 가드레일을 구축하는 데 탁월합니다. **메모리 기반 테스트 시간 확장(MaTTS)** - 추론 시점의 컴퓨팅 자원 확장(Test-time scaling)을 메모리와 결합하여 학습 신호를 극대화하는 MaTTS 기법을 도입했습니다. - **병렬 확장(Parallel scaling):** 동일한 쿼리에 대해 여러 경로를 생성하고 이를 상호 비교함으로써 더 견고한 전략을 합성하고 고품질의 메모리를 생성합니다. - **순차 확장(Sequential scaling):** 단일 작업 내에서 추론을 반복적으로 정제하며, 시행착오 과정에서 발생하는 중간 단계의 통찰을 메모리에 기록합니다. - 이 과정에서 고품질 메모리는 확산된 탐색을 유망한 전략으로 안내하고, 확장된 상호작용은 다시 메모리를 풍부하게 만드는 시너지 효과를 냅니다. **성능 향상 및 전략적 성숙도의 발현** - WebArena 및 SWE-Bench-Verified 벤치마크 평가 결과, 메모리가 없는 기본 모델 대비 성공률이 최대 8.3% 향상되었으며, 작업당 실행 단계는 평균 3단계 가량 단축되었습니다. - 에이전트가 축적된 지식을 바탕으로 점진적으로 발전하는 '전략적 성숙도'가 관찰되었습니다. 초기의 단순한 절차적 체크리스트가 시간이 흐름에 따라 복잡한 조건부 논리 구조를 가진 고급 메모리로 진화했습니다. - 실험 결과 ReasoningBank는 자기 평가 과정의 일부 노이즈에도 강건하게 작동하며, 확장(Scaling)과 결합했을 때 효율성이 더욱 극대화됨이 증명되었습니다. 단순히 성공한 워크플로우를 저장하는 것을 넘어, 실패로부터 배우고 추론 과정을 일반화하는 ReasoningBank의 접근법은 자율형 에이전트의 실용성을 높이는 강력한 도구입니다. 복잡한 소프트웨어 엔지니어링이나 동적인 웹 환경에서 작동하는 에이전트를 설계한다면, 실행 시간의 연산량을 메모리 업데이트로 전환하는 MaTTS 방식의 도입을 적극 고려해 볼 수 있습니다.

google

현실 세계를 위한 합성 데이터셋 설계: 메커니즘 설계와 제1원칙에 기반한 추론 (새 탭에서 열림)

구글 연구진이 발표한 'Simula' 프레임워크는 합성 데이터 생성을 개별 샘플 최적화가 아닌 '데이터셋 수준의 메커니즘 설계'로 재정의하여 전문화된 AI 모델 학습의 데이터 부족 문제를 해결합니다. 추론 모델을 활용해 제1원칙(First principles)부터 데이터셋을 설계하는 이 방식은 데이터의 범위, 복잡성, 품질을 독립적으로 제어할 수 있는 확장 가능한 솔루션을 제공합니다. 특히 보안이나 법률과 같이 데이터가 희소하거나 개인정보에 민감한 영역에서 실제 세계의 데이터를 대체하거나 보완할 수 있는 고품질의 합성 데이터를 생성하는 데 탁월한 성능을 보입니다. **기존 합성 데이터 생성의 한계와 메커니즘 설계의 필요성** * **실제 데이터의 제약:** 수동 데이터 제작은 비용이 많이 들고 오류가 잦으며, 정적인 특성 때문에 모델의 안전성을 테스트하기 위한 에지 케이스(Edge case)를 선제적으로 생성하기 어렵습니다. * **기존 합성 방식의 문제:** 수동 프롬프트나 진화 알고리즘에 의존하는 방식은 확장성이 떨어지고, 생성 과정이 '블랙박스' 형태여서 설명 가능성이 부족하며, 개별 샘플 단위의 최적화에 그친다는 한계가 있습니다. * **프로그래밍 가능한 워크플로우:** Simula는 데이터를 코드처럼 버전 관리하고 재현하며 검사할 수 있는 '데이터 우선(Synthetic-first)' 접근법을 제안하며, 이를 위해 데이터셋 전체의 구조를 설계하는 메커니즘 디자인을 도입했습니다. **Simula: 추론 기반의 데이터 생성 4단계** * **전역적 다양화(Global Diversification):** 무작위 샘플링 대신 추론 모델을 사용해 대상 도메인의 개념 공간을 계층적 분류 체계(Taxonomy)로 맵핑합니다. '제안-수정' 루프를 통해 인간의 시드 데이터 없이도 도메인의 롱테일 영역까지 포괄하는 샘플링 토대를 구축합니다. * **지역적 다양화(Local Diversification):** 특정 개념 내에서의 변주를 확보하기 위해 '메타 프롬프트'를 생성합니다. 예를 들어 'SQL 인젝션'이라는 노드에서 수많은 서로 다른 시나리오를 파생시켜 데이터가 특정 형태에 매몰되는 '모드 붕괴(Mode collapse)'를 방지합니다. * **복잡화(Complexification):** 난이도를 독립적인 축으로 설정하여, 의미적 범위는 유지한 채 메타 프롬프트를 더 정교하고 어렵게 정제합니다. 이를 통해 실무자는 데이터셋의 난이도 분포를 자유롭게 조정할 수 있습니다. * **품질 검증(Quality Checks):** 인간의 개입 없이 정답의 정확성을 보장하기 위해 '이중 비평(Dual-critic)' 루프를 실행합니다. 이는 모델이 그럴싸한 답변에 무조건 동조하는 '아첨(Sycophancy)' 현상을 방지하고 레이블의 신뢰도를 높입니다. **추론 중심의 새로운 평가 지표** * **기존 지표의 한계:** 임베딩 기반의 코사인 유사도와 같은 표준 지표는 합성 데이터의 실제 유용성이나 구체적인 개선 방향을 제시하는 데 한계가 있습니다. * **새로운 측정 도구:** Simula는 분류 체계 기반의 '범위(Taxonomic Coverage)'와 LLM 간의 배치 비교를 통해 개별 데이터에 체스식 점수를 매기는 '보정된 복잡성 점수(Calibrated Complexity Scoring, Elo rating)'를 도입하여 데이터의 질을 입체적으로 평가합니다. **실험을 통해 증명된 합성 데이터의 원칙** * **메커니즘 설계의 필수성:** 사이버 보안, 법률, 수학 등 다양한 도메인에서 Simula로 생성된 데이터셋은 단순한 베이스라인 방식보다 일관되게 높은 성능을 기록했습니다. * **맥락에 따른 데이터 맞춤화:** 수학적 추론에서는 높은 복잡성이 성능을 10% 향상시켰으나, 법률 분야에서는 오히려 성능을 저하시켰습니다. 이는 데이터를 소비할 모델의 역량에 맞춰 데이터 난이도를 최적화해야 함을 시사합니다. * **양보다 질의 법칙:** 고품질의 합성 데이터는 적은 샘플 수로도 더 높은 성능을 달성했으며, 이는 AI 모델의 스케일링 법칙이 단순한 데이터의 양이 아닌 데이터의 내재적 속성에 의해 주도됨을 확인시켜 줍니다. 성공적인 AI 모델 전문화를 위해서는 단순히 데이터를 많이 생성하는 것이 아니라, 도메인의 지식 구조를 반영한 정교한 설계가 선행되어야 합니다. Simula 프레임워크와 같이 추론 모델을 활용해 데이터셋의 다양성과 복잡성을 능동적으로 제어하는 방식은 향후 데이터가 부족한 특수 분야 AI 개발의 핵심적인 방법론이 될 것입니다.

google

AI가 생성한 합성 뉴런으로 뇌 지도 제작 가속화 (새 탭에서 열림)

Google Research는 뇌의 복잡한 연결망을 재구성하는 커넥토믹스(Connectomics) 분야의 효율을 높이기 위해 합성 뉴런 형태를 생성하는 AI 모델 'MoGen'을 개발했습니다. MoGen이 생성한 합성 데이터를 기존 재구성 모델인 PATHFINDER의 학습에 활용한 결과, 재구성 오류를 4.4% 줄였으며 이는 생쥐 뇌 전체 지도를 제작할 때 약 157년의 수동 검토 시간을 절약할 수 있는 획기적인 성과입니다. 이번 연구는 현대적인 생성형 AI 기법을 활용해 대규모 뇌 지도 제작의 최대 병목 구간인 인적 검증 과정을 크게 단축할 수 있음을 입증했습니다. **커넥토믹스의 거대한 규모와 수동 검증의 한계** * 커넥토믹스는 뇌세포인 뉴런을 재구성하여 뇌의 배선도를 만드는 분야로, 최근 초파리 뇌 전체 지도를 완성했으나 생쥐나 인간의 뇌는 그보다 수천 배 더 커서 현재 기술로는 한계가 있습니다. * 현미경 영상을 3D 뉴런 형상으로 변환하는 과정에서 AI가 사용되지만, 최종 결과물에 대한 전문가의 수동 검토(Proofreading) 단계가 여전히 가장 많은 시간을 소요하는 병목 현상으로 작용합니다. * 뉴런은 가늘고 긴 축삭(Axon)과 복잡하게 가지를 친 수지상 돌기(Dendrite) 등 매우 불규칙하고 복잡한 기하학적 구조를 가지고 있어 AI가 이를 정확히 파악하는 데 어려움을 겪습니다. **MoGen: 포인트 클라우드 기반의 뉴런 형태 생성** * 연구진은 'PointInfinity' 포인트 클라우드 흐름 매칭(flow matching) 모델을 기반으로 한 MoGen(Neuronal Morphology Generation)을 개발했습니다. * 이 모델은 무작위적인 3D 점들의 집합(포인트 클라우드)을 점진적으로 변형시켜 실제 뉴런과 흡사한 3D 형상을 생성합니다. * 검증된 생쥐 대뇌 피질의 축삭 데이터를 학습한 MoGen은 실제 뉴런의 구부러짐, 뒤틀림, 가지치기 등의 특성을 완벽하게 재현하며, 인간 전문가조차 실제와 합성 데이터를 구별하지 못할 정도의 정교함을 보여주었습니다. **재구성 모델 PATHFINDER의 성능 최적화** * 뉴런 재구성 모델인 PATHFINDER를 학습시킬 때 MoGen이 생성한 수백만 개의 합성 데이터를 10% 비중으로 포함했습니다. * 그 결과, 서로 다른 뉴런이 하나로 합쳐지는 '병합 오류(Merge error)'를 중심으로 전체 오류율이 4.4% 감소하는 성과를 거두었습니다. * 단순한 수치처럼 보일 수 있으나, 생쥐 뇌 전체 규모로 환산하면 전문가 한 명이 157년 동안 작업해야 하는 분량의 수동 수정을 대체할 수 있는 경제적 효과를 가집니다. **오픈 소스화 및 향후 확장 계획** * Google Research는 MoGen 모델과 종별로 학습된 모델들을 오픈 소스로 공개하여 커뮤니티의 연구를 지원하고 있습니다. * 향후에는 특정 뉴런 유형(길이, 분기 수 등)을 조절하여 생성하거나, 재구성 오류가 자주 발생하는 특정 기하학적 구조를 집중적으로 학습시켜 모델을 고도화할 계획입니다. * 생쥐 외에도 금화조, 초파리 등 다양한 종의 뉴런 생성 모델을 개발 중이며, 합성 뉴런을 활용해 전자현미경 이미지를 생성하는 방식 등 공정 전반에 걸친 데이터 증강을 모색하고 있습니다. 이 기술은 향후 생쥐 뇌 전체 지도 제작과 같은 거대 프로젝트를 수행하는 데 필수적인 기반 도구가 될 것으로 보이며, 연구자들은 MoGen을 통해 확보한 데이터로 뇌 과학 연구의 속도를 한층 더 높일 수 있을 것입니다.

google

생성형 AI를 활용한 미래 대응 역량 강화를 향하여 (새 탭에서 열림)

구글 리서치는 뉴욕대학교(NYU)와의 협력을 통해 생성형 AI를 활용하여 '미래 역량(future-ready skills)'을 측정하는 연구 프로젝트인 'Vantage'를 공개했습니다. 이 시스템은 AI 아바타와의 대화를 통해 협업, 비판적 사고 등 정량화하기 어려운 인간의 역량을 시뮬레이션 환경에서 평가하며, 연구 결과 AI의 채점 정확도가 인간 전문가 수준에 도달했음을 입증했습니다. Vantage는 현재 구글 랩스(Google Labs)를 통해 영어 버전으로 제공되어 교육 현장에서의 활용 가능성을 탐색하고 있습니다. **미래 역량 측정의 난제와 시뮬레이션의 도입** * 비판적 사고, 협업, 창의적 사고와 같은 미래 역량은 현대 사회에서 필수적이지만, 기존의 표준화된 시험으로는 그 사고 과정이나 상호작용을 포착하기 어렵습니다. * 실제 인간 간의 상호작용을 통해 평가하는 방식은 자원 소모가 크고, 모든 학생에게 동일한 갈등 상황이나 과제를 부여하기 어려워 표준화된 채점이 불가능하다는 한계가 있습니다. * Vantage는 이러한 문제를 해결하기 위해 AI 아바타와 함께 과제를 수행하는 역동적인 다자간 대화 환경(Sandbox)을 구축하여 실제 세계와 유사한 평가 시나리오를 제공합니다. **Executive LLM을 활용한 적응형 평가 엔진** * **Executive LLM의 역할:** 대화의 흐름을 실시간으로 분석하고 평가 루브릭(평가 기준표)에 따라 AI 아바타들을 통제합니다. 사용자가 특정 역량을 드러낼 수 있도록 의도적으로 의견을 반박하거나 갈등을 도입하는 등 동적인 도전을 제시합니다. * **데이터 밀도 최적화:** 단순한 대화에 그치지 않고, 평가에 필요한 핵심 정보를 단시간 내에 이끌어낼 수 있도록 대화를 유도하는 '차세대 적응형 평가 엔진' 역할을 수행합니다. * **AI 평가기(Evaluator):** 대화가 종료되면 AI 평가기가 전체 대화 기록을 분석하여 정밀한 기술 지도(Skill map)와 정성적인 피드백을 제공함으로써, 보이지 않던 인간의 역량 발달 과정을 시각화합니다. **연구를 통한 기술적 타당성 검증** * **대화 유도 능력:** 실험 결과, Executive LLM은 독립적인 AI 모델들보다 대화 흐름을 자연스럽게 유지하면서도 평가에 필요한 기술 관련 정보를 훨씬 더 높은 밀도로 이끌어내는 것으로 나타났습니다. * **채점 정확도:** AI 평가자가 매긴 점수와 NYU 전문가들이 매긴 점수를 비교했을 때, 두 집단 간의 일치도는 인간 전문가들 사이의 일치도와 유사한 수준을 기록했습니다. 이는 AI가 복잡한 인간 역량을 신뢰할 수 있는 수준으로 자동 채점할 수 있음을 의미합니다. * **확장성:** 구글은 스타트업 OpenMic과의 협력을 통해 창의성 및 영어 영문학 과제 등 다른 교과 영역에서도 AI 평가기의 성능을 확인하며 적용 범위를 넓히고 있습니다. **실용적인 시사점** Vantage는 교육자가 학생들의 소프트 스킬을 객관적으로 파악하고 이를 기반으로 맞춤형 수업을 설계할 수 있도록 돕는 강력한 도구가 될 수 있습니다. 기술의 발전으로 정답이 없는 복합적인 문제 해결 능력이 중요해진 만큼, 이러한 AI 기반 시뮬레이션 평가 도구를 학습 과정에 도입하여 학생들에게 안전한 실패와 성장의 기회를 제공할 것을 권장합니다.

google

ConvApparel: 사용자 시뮬레이터의 현실성 격차 측정 및 해소 (새 탭에서 열림)

ConvApparel은 LLM 기반 사용자 시뮬레이터와 실제 인간 사이의 '리얼리즘 격차(Realism Gap)'를 정량화하고 이를 좁히기 위해 설계된 새로운 데이터셋이자 평가 프레임워크입니다. 이 연구는 시뮬레이터가 단순히 인간의 말투를 흉내 내는 것을 넘어, 시스템의 오류나 불친절한 응답에 대해 인간처럼 좌절하거나 반응하는지 검증하는 데 중점을 둡니다. 이를 통해 실제 환경에서도 견고하게 작동하는 대화형 AI 에이전트를 학습시키고 테스트할 수 있는 신뢰할 수 있는 기반을 제공합니다. ### 리얼리즘 격차와 시뮬레이터의 한계 현재 대화형 AI 학습에 사용되는 LLM 기반 시뮬레이터는 실제 사용자 행동과 시스템적으로 괴리된 모습을 보입니다. * **비현실적인 특성:** 시뮬레이터는 과도하게 장황하거나, 일관된 페르소나가 부족하며, 실제 인간이라면 느낄 법한 좌절감을 표현하지 못하고 비정상적인 인내심을 보이는 경향이 있습니다. * **과적합의 위험:** 특정 데이터로만 학습된 시뮬레이터는 훈련 시 보지 못했던 새로운 에이전트 정책을 만났을 때 적절히 반응하지 못하고 훈련 패턴만 맹목적으로 반복하는 한계가 있습니다. * **훈련 결과의 불일치:** 현실성 없는 시뮬레이터로 학습된 에이전트는 실제 사용자에게 배포되었을 때 예상치 못한 상황에서 실패할 가능성이 높습니다. ### ConvApparel 데이터셋과 이중 에이전트 프로토콜 의류 쇼핑 도메인(CRS)을 배경으로 구축된 ConvApparel은 인간의 다양한 감정 스펙트럼을 포착하기 위해 독특한 실험 설계를 채택했습니다. * **이중 에이전트 구조:** 사용자를 무작위로 '좋은(Good) 에이전트'와 의도적으로 불친절하고 혼란을 주는 '나쁜(Bad) 에이전트'에 배정하여 만족부터 분노까지의 폭넓은 반응을 수집했습니다. * **대규모 데이터:** 총 4,000건 이상의 인간-AI 대화와 약 15,000회의 턴(turn)으로 구성되어 통계적 유의성을 확보했습니다. * **세밀한 주석(Annotation):** 각 대화의 턴마다 사용자가 느낀 만족도, 좌절감, 구매 가능성 등 주관적인 내부 상태를 직접 보고하게 하여 시뮬레이터 검증을 위한 지표(Ground Truth)로 활용했습니다. ### 시뮬레이터 신뢰도 측정을 위한 3대 지표 연구팀은 시뮬레이터가 실제 인간과 얼마나 유사한지 다각도로 평가하기 위해 세 가지 핵심 지표를 제안합니다. * **인구 통계적 통계 정렬(Population-level Alignment):** 대화의 길이, 턴당 단어 수, 거절이나 수락과 같은 대화 행위(Dialog Acts)의 분포가 실제 인간 군집의 통계와 일치하는지 확인합니다. * **인간 유사성 점수(Human-likeness Score):** 실제 대화와 합성 대화를 구분하도록 학습된 판별기(Discriminator)를 통해 시뮬레이션된 대화가 얼마나 인간적인 스타일을 갖췄는지 정량화합니다. * **인과적/반사실적 검증(Counterfactual Validation):** '좋은' 에이전트와의 대화만 학습한 시뮬레이터가 생소하고 불친절한 '나쁜' 에이전트를 만났을 때, 실제 인간처럼 만족도가 급감하고 좌절감이 상승하는지 테스트하여 적응력을 평가합니다. ### 결론 및 제언 성공적인 대화형 AI 개발을 위해서는 시뮬레이터가 단순히 친절한 조수 역할에 머물러서는 안 되며, 불완전하고 때로는 쉽게 짜증을 내는 인간의 본성을 정확히 반영해야 합니다. ConvApparel 프레임워크는 프롬프트 기반, 인메모리 학습(ICL), 지도 미세 조정(SFT) 등 다양한 방식으로 구축된 시뮬레이터의 성능을 엄격하게 평가할 수 있는 도구를 제공합니다. 향후 대화형 시스템 개발자들은 이러한 다각적 검증 지표를 활용함으로써, 실험실 환경을 넘어 실제 복잡한 사용자 환경에서도 안정적으로 작동하는 에이전트를 구축할 수 있을 것입니다.

google

학술 워크플로우 개선: 더 나은 그림과 피어 리뷰를 위한 두 가지 AI 에이전트 소개 (새 탭에서 열림)

구글 클라우드 연구진은 학술 연구의 효율성을 극대화하기 위해 시각화 도구인 **PaperVizAgent**와 논문 리뷰 자동화 시스템인 **ScholarPeer**라는 두 가지 AI 에이전트 프레임워크를 공개했습니다. 이 시스템들은 연구자가 단순 반복적인 작업이나 행정적 부담에서 벗어나 혁신에 집중할 수 있도록 돕는 것을 목표로 하며, 실험 결과 전문가 수준의 도식 생성과 엄격한 논문 심사 능력을 입증했습니다. 이는 AI가 단순한 보조 도구를 넘어 학술 생태계의 능동적인 참여자로 진화하고 있음을 시사합니다. ### PaperVizAgent: 출판 가능한 수준의 학술 도식 생성 PaperVizAgent는 논문 텍스트를 기반으로 전문가급의 방법론 도식이나 통계 그래프를 생성하는 자율 프레임워크입니다. * **다중 에이전트 협업:** 검색(Retriever), 계획(Planner), 스타일 지정(Stylist), 시각화(Visualizer), 비평(Critic)을 담당하는 5개의 전문 에이전트가 팀을 이루어 작동합니다. * **반복적 정교화 프로세스:** 비평 에이전트가 생성된 결과물과 원문 사이의 불일치를 찾아내면, 시각화 에이전트가 이를 피드백으로 받아 수정을 반복하며 정확도를 높입니다. * **주요 입력 요소:** 연구의 기술적 세부 사항이 담긴 '소스 컨텍스트'와 시각적으로 전달하려는 의도를 담은 '도식 캡션'만으로 고품질 이미지를 생성합니다. * **성능 입증:** 신뢰성, 간결성, 가독성, 심미성 평가에서 기존의 GPT-Image-1.5나 Paper2Any를 능가했으며, 특히 간결성과 심미성 측면에서 인간 기준 점수(50점)를 상회하는 60.2점을 기록했습니다. ### ScholarPeer: 시니어 리뷰어를 모사하는 논문 심사 에이전트 ScholarPeer는 숙련된 연구자의 워크플로우를 따라 논문의 기술적 타당성을 검증하고 심사평을 작성하는 검색 기반 멀티 에이전트 시스템입니다. * **이중 스트림 정보 처리:** 문맥 습득과 능동적 검증이라는 두 가지 경로를 통해 단순히 텍스트를 생성하는 것이 아니라, 실제 문헌에 근거한 비판을 수행합니다. * **특화된 에이전트 구성:** 실시간 웹 검색으로 도메인 지식을 보강하는 '히스토리언 에이전트'와 저자가 놓친 데이터셋이나 비교 대상을 찾는 '스카우트 에이전트'가 포함됩니다. * **기술적 검증 엔진:** 다각도 Q&A 엔진이 논문의 기술적 주장을 엄격하게 검증하여, 강점과 약점 및 저자 질문이 포함된 전문적인 리뷰 보고서를 생성합니다. * **신뢰성 확보:** 기존 자동 리뷰 시스템 대비 높은 승률(Win-rate)을 보였으며, AI 특유의 환각 현상을 줄이고 실제 인간 리뷰어와 유사한 비판적이고 구체적인 피드백을 제공합니다. ### 학술 연구의 미래와 제언 이러한 AI 에이전트들의 등장은 기하급수적으로 증가하는 논문 제출량으로 인한 리뷰어들의 피로감을 해소하고, 시각화 역량이 부족한 연구자들에게 강력한 지원군이 될 것입니다. 연구자들은 이러한 도구를 활용해 연구의 전달력을 높이는 동시에, 제출 전 셀프 리뷰 단계에서 ScholarPeer를 활용해 논문의 논리적 허점을 미리 보완함으로써 승인 가능성을 높이는 전략을 취할 수 있습니다. 결과적으로 AI 에이전트는 학술 워크플로우 전반의 질적 수준을 상향 평준화하는 데 기여할 것으로 기대됩니다.

google

LLM의 행동 성향 정렬 평가 (새 탭에서 열림)

구글 리서치는 대규모 언어 모델(LLM)의 행동 성향을 정밀하게 측정하기 위해 심리학적 방법론인 상황 판단 테스트(SJT)를 도입한 새로운 평가 프레임워크를 제시했습니다. 연구 결과, 최신 대형 모델들은 인간의 의견이 만장일치로 일치하는 상황에서는 높은 정렬 수준을 보였으나, 의견이 갈리는 복잡한 사회적 상황에서는 인간의 다양한 관점을 반영하지 못하고 특정 답변에 과하게 확신하는 경향을 보였습니다. 이는 LLM이 인간 사회의 미묘한 역학을 더욱 정교하게 탐색하기 위해 행동 정렬 방식의 개선이 필요함을 시사합니다. **심리학적 기반의 상황 판단 테스트(SJT) 설계** * 단순한 자기보고식 설문(예: "나는 의견을 빨리 표현한다")의 한계를 극복하기 위해, 실제 사용자-어시스턴트 상호작용 상황을 가정한 시나리오 기반의 SJT를 구축했습니다. * IRI(공감), ERQ(정서 조절) 등 검증된 심리학적 척도를 바탕으로 전문적 침착함, 갈등 해결, 일상적 의사결정 등 다양한 사회적 맥락을 반영하는 시나리오를 생성했습니다. * 모델의 자연어 응답을 'LLM-as-a-judge' 방식을 통해 두 가지 대조되는 행동 선택지 중 하나로 매핑하고, 이를 550명의 인간 주석자가 내놓은 반응 분포와 비교하여 정렬도를 측정했습니다. **모델 규모에 따른 행동 방향성 일치도** * 25개의 LLM을 분석한 결과, 25B(250억 개) 미만의 소형 모델은 인간의 다수 의견과 일치하는 선택을 하는 '방향성 일치도'가 현저히 낮았으며, 때로는 무작위 수준의 선택을 보였습니다. * 120B 이상의 대형 모델과 최신 프런티어 모델들은 인간의 합의가 만장일치(10/10)인 상황에서 거의 완벽한 일치도를 보였으나, 합의율이 80~90%로 낮아지면 모델의 성능도 80%대 초중반에서 정체되었습니다. * 구체적인 일탈 사례로, 모델은 인간이 '침착함'을 권장하는 전문적인 상황에서 '감정적 개방성'을 지나치게 독려하거나, 갈등 상황에서 자기 주장을 하기보다 과도하게 화합만을 우선시하는 경향을 보였습니다. **분포적 정렬의 한계와 과잉 확신 문제** * 인간 사회의 다양한 관점을 반영해야 한다는 '분포적 다원주의' 관점에서 볼 때, 인간의 의견이 갈리는 상황에서는 모델의 응답 확률 분포도 낮아져야(즉, 확신이 줄어들어야) 합니다. * 그러나 테스트된 25개 모델 모두 인간의 합의 수준과 상관없이 특정 선택지에 대해 체계적인 '과잉 확신(Overconfidence)'을 보이는 것으로 나타났습니다. * 인간들 사이에서 선호도가 팽팽하게 나뉘는 시나리오에서도 모델은 확률 분포를 고르게 분산시키지 못하고, 특정 행동이 정답인 것처럼 높은 확신을 가지고 응답하는 한계를 드러냈습니다. 이 연구는 LLM이 인간의 행동 양식을 단순히 흉내 내는 것을 넘어, 사회적 맥락에 따라 유연하게 대응하고 인간 의견의 다양성을 존중하도록 설계되어야 함을 강조합니다. 향후 모델 개발 시 단순한 선호도 최적화를 넘어, 인간의 미묘한 사회적 역동성과 다원적 가치를 반영할 수 있는 정렬 기술이 중요하게 작용할 것입니다.

google

더 나은 AI 벤치마크 구축하기: 평가자는 몇 명이면 충분할까? (새 탭에서 열림)

AI 모델의 성능을 평가할 때 인간 평가자들 사이의 의견 불일치는 재현성을 저해하는 주요 원인이 되지만, 그동안의 벤치마크는 소수의 평가자 의견만 반영하는 '단일 진리' 패러다임에 머물러 있었습니다. 구글 리서치는 데이터 항목 수(N)와 항목당 평가자 수(K) 사이의 최적의 균형점을 찾는 프레임워크를 통해, 더 적은 비용으로도 인간의 미묘한 의견 차이를 반영할 수 있는 재현성 높은 평가 로드맵을 제시했습니다. 연구 결과, 단순 정확도 측정인지 혹은 의견의 뉘앙스를 포착하는 것인지에 따라 최적의 (N, K) 비율이 달라진다는 점이 확인되었습니다. **재현성을 위한 (N, K) 트레이드오프 실험** * **연구 배경**: 인간은 주관적인 문제(독성, 혐오 표현 등)에 대해 서로 다른 의견을 갖지만, 기존 AI 벤치마크는 비용 문제로 항목당 1~5명의 평가자만 참여시켜 이러한 다양성을 간과해 왔습니다. * **시뮬레이션 설계**: Toxicity, DICES(대화형 AI 안전성), D3code(다문화 오펜시브 데이터) 등 실제 데이터셋을 기반으로 시뮬레이터를 개발하여, 한정된 예산 내에서 데이터 항목 수(Scale, N)와 평가자 수(Crowd, K) 중 무엇을 늘리는 것이 통계적으로 더 신뢰할 수 있는지(p < 0.05) 테스트했습니다. * **오픈소스 공개**: 연구진은 커뮤니티가 직접 모델 평가 전략을 최적화할 수 있도록 이 시뮬레이터를 GitHub에 공개했습니다. **주요 연구 결과: 관행을 깨는 세 가지 통찰** * **3~5명의 평가자는 불충분함**: 흔히 사용되는 항목당 3~5명의 평가 방식은 인간 의견의 복잡성을 담아내기에 부족하며, 통계적으로 유의미하고 재현 가능한 결과를 얻으려면 항목당 10명 이상의 평가자가 필요한 경우가 많습니다. * **측정 지표에 따른 전략 차별화**: * **정확도(Accuracy)**: 모델이 다수결 의견과 일치하는지를 측정할 때는 더 많은 데이터 항목(N)을 확보하는 '넓은(Forest)' 접근 방식이 유리합니다. * **뉘앙스(Nuance)**: 인간 의견의 전체적인 변동성과 스펙트럼을 포착하고자 할 때는 항목당 평가자 수(K)를 늘리는 '깊은(Tree)' 접근 방식이 필수적입니다. * **예산의 효율적 운용**: 무조건 큰 예산이 필요한 것은 아니며, 측정하려는 지표에 맞춰 (N, K) 비율을 최적화하면 약 1,000개의 주석(Annotation) 총량만으로도 충분히 재현성 높은 벤치마크를 구축할 수 있습니다. **AI 벤치마크의 미래와 시사점** * **단일 진리 패러다임의 탈피**: AI가 윤리나 가치 판단 등 주관적인 영역으로 확장됨에 따라, 정답이 하나라는 가정을 버리고 인간의 불일치 자체를 데이터로 수용해야 합니다. * **실무적 권장 사항**: 연구자들은 예산을 투입하기 전 시뮬레이터를 통해 목표 지표에 맞는 최적의 (N, K) 비율을 먼저 산출해야 하며, 특히 주관성이 강한 데이터일수록 평가자 수(K)를 충분히 확보하는 것이 벤치마크의 신뢰도를 높이는 길입니다. * **결론**: 인간이 왜 서로 다른 의견을 내는지 이해하는 것은 합의된 지점을 아는 것만큼 중요하며, 이번 연구는 이를 수학적으로 포착할 수 있는 도구를 제공합니다.

google

책임감 있는 양자 취약점 공개를 통한 암호화폐 보호 (새 탭에서 열림)

구글 퀀텀 AI 연구팀은 미래의 양자 컴퓨터가 기존 예상보다 훨씬 적은 자원만으로도 암호화폐를 보호하는 타원 곡선 암호(ECC)를 해독할 수 있음을 발견했습니다. 연구팀은 블록체인 생태계의 장기적인 안정성을 위해 양자 내성 암호(PQC)로의 신속한 전환을 촉구하며, 공격의 구체적인 방법론을 노출하지 않으면서도 취약성을 입증할 수 있는 '영지식 증명' 기반의 새로운 책임감 있는 공개 모델을 제시했습니다. ### 양자 알고리즘 최적화를 통한 자원 추산치 감소 - 암호화폐 보안의 핵심인 256비트 타원 곡선 이산 대수 문제(ECDLP-256)를 해결하는 데 필요한 양자 자원 추산치를 대폭 업데이트했습니다. - 쇼어 알고리즘(Shor's algorithm)을 구현하는 두 가지 최적화된 양자 회로를 설계했습니다. 하나는 1,200개 미만의 논리 큐비트와 9,000만 개의 토폴리 게이트를 사용하며, 다른 하나는 1,450개 미만의 논리 큐비트와 7,000만 개의 토폴리 게이트를 사용합니다. - 이는 초전도 큐비트 방식의 양자 컴퓨터에서 약 50만 개의 물리 큐비트만으로 몇 분 안에 암호 해독이 가능하다는 것을 의미하며, 기존 추산치보다 물리 큐비트 요구량을 약 20배 가량 줄인 결과입니다. ### 블록체인 생태계의 양자 내성 암호(PQC) 도입 필요성 - 현재 대부분의 블록체인과 암호화폐는 ECDLP-256에 의존하고 있어 양자 컴퓨터의 공격에 취약하므로, 양자 공격에 견딜 수 있는 PQC로의 전환이 필수적입니다. - 구글은 코인베이스, 스탠퍼드 블록체인 연구소, 이더리움 재단 등과 협력하여 2029년까지 양자 내성 암호로의 이주를 목표로 하는 타임라인을 수립했습니다. - 단기적인 보안 강화를 위해 지갑 주소의 재사용을 자제하고, 장기적으로는 방치된 코인(Abandoned coins)에 대한 정책적 대안을 마련할 것을 권고합니다. ### 영지식 증명을 활용한 새로운 취약점 공개 방식 - 보안 취약점을 완전히 공개하면 악의적인 공격자에게 지침서를 제공할 위험이 있고, 비공개로 두면 대중이 대비할 기회를 놓치게 되는 딜레마를 해결하고자 했습니다. - 연구팀은 공격용 양자 회로의 세부 정보를 직접 공유하는 대신, '영지식 증명(Zero-knowledge proof)'을 통해 해당 자원만으로 암호 해독이 가능하다는 사실을 제3자가 검증할 수 있도록 했습니다. - 이러한 방식은 불확실한 정보로 인한 시장의 공포(FUD)를 줄이는 동시에, 학문적 근거를 바탕으로 보안 커뮤니티가 책임감 있게 대응할 수 있는 모델을 제공합니다. ### 실용적인 결론 및 제언 양자 컴퓨터가 암호화 기술을 위협하는 시대가 다가옴에 따라, 블록체인 커뮤니티는 지금 즉시 양자 내성 암호 체계로의 전환을 준비해야 합니다. 특히 시스템이 복잡한 블록체인 특성상 기술적 구현에 상당한 시간이 소요되므로, 취약한 지갑 주소 노출 방지와 같은 즉각적인 조치와 함께 산업 전반의 협력이 시급합니다. 연구팀은 이번에 제시한 영지식 증명 기반의 공개 모델이 향후 양자 암호 분석 분야의 표준적인 책임 공개 방식으로 자리 잡기를 기대하고 있습니다.

google

바이브 코딩 XR: XR Blocks와 Gemini를 활용한 AI + XR 프로토타이핑 가속화 (새 탭에서 열림)

Google XR 팀에서 발표한 **Vibe Coding XR**은 제미나이(Gemini)와 오픈 소스 프레임워크인 'XR Blocks'를 결합하여 자연어 프롬프트만으로 상호작용 가능한 XR(확장 현실) 애플리케이션을 생성하는 혁신적인 워크플로우입니다. 이 시스템은 복잡한 게임 엔진이나 센서 통합 과정 없이도 물리 법칙이 적용된 WebXR 앱을 60초 이내에 구축함으로써, 개발자가 아이디어를 Android XR 헤드셋에서 즉각적으로 검증할 수 있게 합니다. 결과적으로 공간 컴퓨팅의 진입 장벽을 낮추고 프로토타이핑 속도를 획기적으로 가속화하는 것이 이 기술의 핵심입니다. ### XR 프로토타이핑의 변화와 Vibe Coding * **전통적 방식의 한계:** 기존 XR 개발은 파편화된 인식 파이프라인, 복잡한 게임 엔진, 저수준 센서 통합 등으로 인해 숙련된 개발자에게도 진입 장벽이 높았습니다. * **Vibe Coding의 도입:** LLM이 인간의 의도를 직접 실행 가능한 코드로 변환하는 'Vibe Coding' 개념을 도입하여, 복잡한 코딩 과정 없이 의도(vibe)만으로 결과물을 만들어냅니다. * **효율성 극대화:** 며칠이 소요되던 공간 시각화 및 상호작용 테스트를 단 몇 분 만에 완료할 수 있어 아이디어의 신속한 검증과 폐기가 가능해집니다. ### Vibe Coding XR 워크플로우 * **자연어 묘사:** 사용자는 Android XR 헤드셋이나 데스크톱의 크롬 브라우저에서 "민들레를 만들어줘"와 같은 단순한 명령어를 입력합니다. * **AI 설계 및 구현:** 제미나이가 XR Blocks의 구조와 샘플을 학습하여 장면 구성, 인식 로직, 상호작용 방식을 설계하고 코드를 작성합니다. * **즉각적인 배포 및 테스트:** 생성된 앱은 'Enter XR' 버튼 클릭 한 번으로 실행되며, 핀치(Pinch) 제스처 등 손동작 인터랙션을 즉시 테스트할 수 있습니다. * **시뮬레이션 환경 제공:** 데스크톱 환경에서도 가상현실 시뮬레이터를 통해 실제 헤드셋 없이도 물리 기반 상호작용을 미리 확인하고 수정할 수 있습니다. ### 기술적 구성 요소 및 메커니즘 * **XR Blocks 프레임워크:** WebXR, three.js, LiteRT.js 등 접근성 높은 웹 기술을 기반으로 구축되어 환경 인식, AI 통합, 공간 상호작용을 관리합니다. * **전문화된 시스템 프롬프트:** 제미나이에게 공간 레이아웃, 스케일, 상호작용 거리 등 XR 환경의 모범 사례와 디자인 패턴을 가르치는 정교한 지침이 포함되어 있습니다. * **소스 코드 템플릿:** 엄선된 XR Blocks 템플릿과 소스 코드를 프롬프트 컨텍스트에 포함하여 AI의 환각(Hallucination) 현상을 방지하고 유효한 API 호출을 보장합니다. ### 실제 적용 사례 * **수학 및 과학 교육:** 오일러의 정리 시각화, 지레의 원리를 이용한 물리 실험실, 분자 연소 반응을 관찰하는 화학 실험 등 교육용 콘텐츠를 즉석에서 생성합니다. * **양자 역학 시뮬레이션:** '슈뢰딩거의 고양이' 개념을 XR로 구현하여, 상자를 열기 전까지 생사 상태가 공존하는 퀀텀 상태를 직접 체험할 수 있게 합니다. * **스포츠 프로토타이핑:** 손으로 공을 치고 주변 환경과 충돌하는 배구 게임과 같은 물리 기반 스포츠 경험을 빠르게 구축합니다. Vibe Coding XR은 복잡한 도구 학습에 시간을 쓰는 대신 아이디어의 본질에 집중할 수 있게 해줍니다. XR 개발 경험이 적은 교육자나 기획자라면 이 워크플로우를 활용해 추상적인 개념을 3차원 공간에서 시각화하는 용도로 활용해 보길 권장하며, 숙련된 개발자는 복잡한 기능을 구현하기 전 인터랙션의 "감(vibe)"을 잡는 초기 프로토타이핑 도구로 강력히 추천합니다.

google

현대 세계 매핑하기: S2Vec이 우리 도시의 언어를 학습하는 방법 (새 탭에서 열림)

Google Research가 발표한 S2Vec은 도로, 건물, 인프라와 같은 인위적 환경(Built Environment)의 복잡한 데이터를 범용적인 임베딩으로 변환하는 자기지도 학습(Self-supervised) 프레임워크입니다. 이 모델은 지리 공간 데이터를 컴퓨터 비전 모델이 이해할 수 있는 래스터(Raster) 이미지 형태로 변환하고 마스크 오토인코딩(MAE) 기법을 적용하여, 수동 레이블링 없이도 전 세계의 사회경제적 및 환경적 패턴을 정밀하게 예측합니다. 결과적으로 S2Vec은 미학습 지역에 대한 지리적 적응력에서 뛰어난 성능을 보이며, 위성 이미지 데이터와 결합했을 때 더욱 강력한 지리 공간 지능을 제공합니다. ### 지리 공간 데이터의 래스터화와 S2 기하학 활용 * **데이터 구조화의 어려움 해결:** 도시 블록은 수백 개의 데이터 포인트를 갖는 반면 농촌은 거의 없는 등 데이터의 밀도 편차가 크다는 문제를 해결하기 위해 S2 Geometry 라이브러리를 사용합니다. * **계층적 셀 분할:** 지구 표면을 계층적인 셀로 나누어 국가 단위부터 수 평방미터 단위까지 다양한 해상도로 데이터를 효율적으로 조회하고 관리합니다. * **특징 래스터화(Feature Rasterization):** 각 S2 셀 내의 건물이나 도로 유형을 계산하여 다층 이미지 형태로 재구성합니다. 예를 들어 특정 셀의 커피숍과 공원 수를 이미지의 '색상' 채널처럼 처리함으로써 성숙한 컴퓨터 비전 기술을 지리 데이터 분석에 그대로 적용할 수 있게 합니다. ### 마스크 오토인코딩(MAE)을 통한 자기지도 학습 * **레이블링 병목 현상 제거:** 전 지구적 데이터를 수동으로 태깅하는 것은 불가능하므로, 데이터의 일부를 가리고(Masking) 주변 맥락을 통해 이를 재구성하도록 학습시키는 MAE 기법을 도입했습니다. * **문맥 논리 학습:** 고층 아파트와 지하철역이 있는 곳에는 식료품점이 있을 가능성이 높다는 식의 도시 구성 요소 간 상관관계를 모델 스스로 파악합니다. * **범용 임베딩 생성:** 수백만 번의 학습 과정을 통해 특정 위치의 고유한 특성을 수학적 수치(임베딩)로 압축하며, 이는 별도의 추가 학습 없이도 다양한 분석 작업에 활용될 수 있습니다. ### 사회경제적 예측 성능 및 다중 모달 융합 * **우수한 지리적 적응성(Extrapolation):** 학습 데이터에 포함되지 않은 새로운 지역의 인구 밀도나 가구 소득 중앙값을 예측하는 제로샷(Zero-shot) 과제에서 기존 이미지 기반 모델들보다 뛰어난 성능을 입증했습니다. * **다중 모달 융합(Multimodal Fusion):** S2Vec의 인위적 환경 데이터와 위성 이미지 임베딩(RS-MaMMUT 등)을 결합했을 때 가장 높은 성능을 기록했습니다. * **환경 지표의 한계:** 탄소 배출량 예측에는 효과적이었으나, 수목 피복도(Tree cover)나 고도와 같은 자연 환경 요소 예측에는 건물 수 중심의 데이터만으로는 한계가 있어 위성 이미지와의 결합이 필수적임을 확인했습니다. S2Vec은 지리 공간 AI가 수동으로 제작된 니치 모델에서 벗어나 확장 가능한 파운데이션 모델로 나아가는 중요한 단계입니다. 도시 계획가나 연구자들은 이 임베딩을 활용해 인프라 변화가 지역 사회의 보건이나 경제에 미치는 영향을 전 지구적 규모에서 더욱 정확하게 분석할 수 있을 것으로 기대됩니다. 구체적인 환경 분석이 필요한 경우, S2Vec 단독 사용보다는 위성 이미지 모델과 결합하여 데이터의 상호보완성을 극대화하는 방식을 추천합니다.

google

TurboQuant: 극한의 압축으로 AI 효율성을 재정의하다 (새 탭에서 열림)

Google Research가 발표한 **TurboQuant**는 대규모 언어 모델(LLM)과 벡터 검색 엔진의 효율성을 극대화하기 위해 설계된 이론 기반의 압축 알고리즘입니다. 이 기술은 기존 양자화 방식의 고질적인 문제였던 메모리 오버헤드를 완전히 해결하여, 모델 성능 저하 없이 KV(Key-Value) 캐시 크기를 6배 이상 줄이고 추론 속도를 최대 8배까지 향상시킵니다. 결과적으로 TurboQuant는 추가적인 파인튜닝 없이도 초거대 AI 모델의 메모리 병목 현상을 해결하는 실질적인 솔루션을 제시합니다. ### 기존 양자화 방식의 한계와 메모리 오버헤드 * 전통적인 벡터 양자화는 데이터 크기를 줄이는 데 효과적이지만, 각 데이터 블록마다 정밀한 양자화 상수를 별도로 계산하고 저장해야 하는 '메모리 오버헤드'가 발생합니다. * 이러한 상수는 숫자당 보통 1~2비트의 추가 용량을 차지하며, 이는 전체 압축 효율을 떨어뜨리는 주요 원인이 됩니다. * 고차원 벡터를 사용하는 AI 모델에서는 이러한 오버헤드가 누적되어 KV 캐시의 병목 현상을 심화시키고 전체 시스템의 메모리 비용을 증가시킵니다. ### PolarQuant: 극좌표계를 활용한 혁신적 압축 * PolarQuant는 벡터를 기존의 데카르트 좌표계(X, Y, Z) 대신 극좌표계(반지름과 각도)로 변환하여 처리하는 새로운 접근 방식을 취합니다. * 데이터의 각도가 특정 패턴으로 집중되어 있다는 점을 활용하여, 경계값이 계속 변하는 사각형 그리드 대신 고정된 원형 그리드에 데이터를 매핑합니다. * 이를 통해 매번 정규화 단계를 거칠 필요가 없어져 기존 양자화 방식이 가졌던 메모리 오버헤드를 근본적으로 제거합니다. * 반지름 쌍을 재귀적으로 변환하여 최종적으로는 단 하나의 반지름과 데이터의 의미를 담은 여러 각도로 데이터를 압축합니다. ### QJL: 1비트의 마법을 통한 오차 제거 * QJL(Quantized Johnson-Lindenstrauss) 알고리즘은 데이터의 필수적인 거리와 관계를 유지하면서 고차원 데이터를 1비트 부호(+1 또는 -1)로 압축합니다. * TurboQuant의 두 번째 단계에서 사용되며, 첫 번째 단계(PolarQuant)에서 발생한 미세한 잔차 오차를 제거하는 수학적 오류 체크 역할을 수행합니다. * 고정밀 쿼리와 저정밀 데이터를 전략적으로 결합하는 특수 추정기(Estimator)를 사용하여 모델이 어텐션 스코어를 계산할 때 편향 없는 정확한 결과를 도출하게 돕습니다. ### 실험 결과 및 성능 지표 * **성능 유지:** LongBench, RULER 등 다양한 벤치마크에서 Gemma와 Mistral 모델을 테스트한 결과, KV 캐시를 3비트로 양자화해도 성능 저하가 거의 없는 것으로 나타났습니다. * **압축 효율:** 추가적인 학습이나 파인튜닝 없이도 KV 캐시 메모리 사용량을 최소 6배 이상 절감합니다. * **속도 향상:** H100 GPU 환경에서 4비트 TurboQuant를 적용할 경우, 양자화되지 않은 32비트 키 값을 사용할 때보다 어텐션 로짓 계산 속도가 최대 8배 빨라집니다. TurboQuant는 긴 컨텍스트(Long-context) 처리가 필요한 현대 AI 서비스에서 비용과 성능이라는 두 마리 토끼를 잡을 수 있는 강력한 도구입니다. 특히 하드웨어 자원이 제한된 환경에서 대규모 모델을 운영하거나, 실시간 응답 속도가 중요한 검색 서비스에 도입했을 때 가장 큰 효과를 기대할 수 있습니다.