transformer-architecture

2 개의 포스트

글로벌 파트너십과 오픈 리소스를 통한 과학적 영향력 촉진 (새 탭에서 열림)

구글 리서치는 책임감 있고 포용적이며 엄격한 연구 원칙을 바탕으로 오픈 사이언스를 추진하며, 전 지구적 파트너십과 공개 리소스를 통해 과학적 발견의 가속화를 도모하고 있습니다. 오픈소스 소프트웨어와 데이터셋을 공유함으로써 연구자들이 성과를 재현하고 확장할 수 있는 환경을 조성하며, 이는 단순히 기술적 혁신에 머무르지 않고 전 세계적인 사회적 진보를 이끄는 촉매제 역할을 합니다. 구글은 트랜스포머 아키텍처부터 전문화된 의료 및 기후 모델에 이르기까지 다양한 자원을 공개하여 전 세계 연구 생태계의 역량을 강화하는 데 집중하고 있습니다. **글로벌 파트너십과 연구 생태계 협력** * 유씨 산타크루즈(UCSC) 유전체 연구소, 자넬리아 연구 캠퍼스, 인도 의학 연구소(AIIMS) 등 전 세계 주요 기관과 협력하여 전문 분야별 연구를 심화하고 있습니다. * 인간 범유전체 연구 컨소시엄(HPRC), 지구 바이오게놈 프로젝트(EBP), NIH BRAIN 이니셔티브와 같은 거대 글로벌 컨소시엄에 참여하여 인류 공통의 과제 해결에 기여합니다. * 인도, 한국, 일본, 호주를 시작으로 지역별 과학 개발자 커뮤니티를 구축하기 위한 투자를 확대하여 실질적인 기술 실천 공동체를 형성하고 있습니다. **분야별 핵심 오픈소스 도구 및 데이터셋** * **유전체학:** DeepVariant, DeepConsensus, DeepPolisher 등 딥러닝 기반 도구를 통해 DNA 분석의 정밀도를 높였으며, 이를 통해 전 세계적으로 250만 명의 전장 유전체 분석을 지원했습니다. * **뇌과학:** 1.4페타바이트 규모의 인간 뇌 조직 데이터셋(H01)과 쥐 시각 피질 지도(MICrONS)를 공개했으며, Neuroglancer 및 TensorStore 같은 도구로 페타스케일의 고해상도 뇌 지도를 탐색하고 분석할 수 있게 했습니다. * **지구 및 기상 모델링:** 18억 개의 건물 감지 데이터를 포함한 'Open Buildings', 하이브리드 기상 모델인 'NeuralGCM', 산불 연구를 위한 'FireBench' 등을 통해 기후 변화 대응과 재난 예측을 돕고 있습니다. * **헬스케어:** MedGemma를 포함한 의료용 파운데이션 모델(HAI-DEF)은 480만 회 이상의 다운로드를 기록 중이며, '오픈 건강 스택(OHS)'은 10개국 이상에서 6,500만 명의 수혜자를 위한 디지털 건강 솔루션 구축에 활용되고 있습니다. **오픈 사이언스가 창출한 실질적 성과** * **유전체 연구 혁신:** UCSC와의 협업을 통해 유전적 변이 식별 오류를 50% 줄였으며, 이는 인류의 다양성을 보다 정확하게 반영하는 범유전체 참조 자료 구축으로 이어졌습니다. * **기상 예측과 농업 지원:** 시카고 대학교 연구팀은 NeuralGCM을 활용해 인도 몬순의 시작을 한 달 전 예측하는 데 성공했으며, 이 정보는 3,800만 명의 인도 농민에게 전달되어 작물 재배 최적화에 기여했습니다. * **의학적 발견:** 존스 홉킨스 대학교 연구진은 구글이 공개한 H01 뇌 데이터셋을 분석하여 기존 학설에 없던 새로운 신경 세포 통신 방식을 발견했으며, 이는 알츠하이머와 같은 질환 연구에 새로운 전기를 마련했습니다. * **인도주의적 활동:** UN 난민기구(UNHCR)는 Open Buildings 데이터를 활용하여 난민 거주지의 재난 대응 샘플링을 최적화하고 해수면 상승에 따른 위험도를 평가하고 있습니다. 오픈 사이언스는 기술적 장벽을 허물고 전 세계 연구자들이 동등한 출발선에서 혁신을 이룰 수 있게 합니다. 연구자와 개발자들은 구글 리서치가 공개한 MedGemma나 NeuralGCM과 같은 특화된 모델과 방대한 데이터셋을 적극 활용함으로써, 각자의 도메인에서 연구의 재현성을 확보하고 사회적 임팩트가 큰 발견을 더 빠르게 도출할 수 있을 것입니다.

모든 레이어를 사용하여 LLM (새 탭에서 열림)

구글 리서치(Google Research)는 대형 언어 모델(LLM)의 환각 현상을 줄이고 사실적 정확성을 높이기 위한 새로운 디코딩 전략인 **SLED(Self Logits Evolution Decoding)**를 공개했습니다. 이 방법은 모델의 마지막 레이어뿐만 아니라 모든 내부 레이어에서 생성된 정보를 결합하여 모델이 이미 보유한 지식을 최대한 활용하도록 유도합니다. 별도의 외부 데이터나 추가적인 파인튜닝 없이도 객관식 문제, 추론, 개방형 생성 등 다양한 작업에서 성능을 일관되게 향상시킨다는 점이 핵심입니다. ### 기존 디코딩의 한계와 환각 문제 * LLM은 텍스트를 생성할 때 토큰별로 확률 분포를 계산하며, 일반적으로 가장 마지막 레이어의 결과값(logits)만을 사용하여 다음 단어를 예측합니다. * 이러한 방식은 훈련 데이터에서 자주 등장하는 '대중적인' 답변에 치우치기 쉬워, 문맥상 더 정확한 정보가 모델 내부에 있음에도 불구하고 잘못된 정보를 출력하는 환각 현상을 야기합니다. * 기존의 해결책인 검색 증강 생성(RAG)은 외부 지식 베이스를 구축해야 하는 복잡성이 있으며, 파인튜닝은 높은 비용과 자원이 소모된다는 단점이 있습니다. ### 모든 레이어를 활용하는 SLED의 메커니즘 * SLED는 트랜스포머 구조의 중간 레이어들에서 발생하는 '조기 종료(early exit)' 로짓을 활용합니다. * 중간 레이어의 로짓에 마지막 투영 행렬(projection matrix)을 재사용하여, 모든 레이어에서 각각의 토큰 확률 분포를 생성합니다. * 각 레이어에서 얻은 예측값들을 가중 평균(weighted average)하여 최종 확률 분포를 산출함으로써, 모델의 처리 단계별 정보를 통합하고 예측을 정교화합니다. * 이 과정은 모델 내부의 잠재된 지식을 더 명확하게 끌어내어, 마지막 레이어에서 왜곡될 수 있는 정보를 보정하는 역할을 합니다. ### 사실 관계 확인 및 추론 능력 향상 사례 * **지식 추출:** "브리티시컬럼비아의 주도는 어디인가?"라는 질문에 일반 모델은 인지도가 높은 '밴쿠버'를 답할 확률이 높지만, SLED는 중간 레이어의 정보를 종합하여 정답인 '빅토리아'를 선택할 확률을 높여줍니다. * **단계별 추론(CoT):** 수학 문제 풀이 과정에서 일반 모델은 $A \times B = C$와 같은 단순 패턴에 매몰되어 할인율 적용 등을 누락하기 쉽습니다. SLED는 중간 레이어에서 '등호(=)' 대신 추가 연산 기호가 나올 확률이 높다는 점을 포착하여 더 정확한 계산 결과를 도출합니다. * **범용성:** SLED는 다양한 규모와 설정의 LLM에 유연하게 적용 가능하며, 다른 사실성 강화 디코딩 기법과 결합하여 환각을 더욱 효과적으로 억제할 수 있습니다. SLED는 모델의 아키텍처를 변경하거나 외부 시스템을 도입하지 않고도 LLM의 신뢰성을 높일 수 있는 실용적인 대안입니다. 모델 내부의 계층적 정보를 최대한 활용하려는 접근 방식은 특히 고도의 정확성이 요구되는 추론 작업이나 전문 지식 답변 서비스에서 강력한 효과를 발휘할 것으로 기대됩니다. 오픈 소스로 공개된 코드를 통해 기존 워크플로우에 즉시 통합하여 성능 개선을 시도해 볼 수 있습니다.