genomics

4 개의 포스트

연구 혁신과 실제 (새 탭에서 열림)

구글 리서치는 강력한 AI 모델과 에이전트 도구를 통해 기초 과학 연구가 실제 서비스로 연결되고, 이것이 다시 새로운 연구 동력으로 이어지는 '연구의 마법 사이클(Magic Cycle of Research)'을 가속화하고 있습니다. 특히 지학, 유전학, 양자 컴퓨팅 분야에서 거둔 최근의 성과들은 AI가 복잡한 데이터를 이해하고 추론하는 단계를 넘어 인류가 직면한 거대한 과제들을 해결하는 핵심 도구로 진화했음을 보여줍니다. 이러한 기술적 진보는 오픈 플랫폼과 협력을 통해 전 세계 학계와 산업계로 확산되며 실질적인 사회적 영향력을 창출하고 있습니다. ### Google Earth AI: 거대 언어 모델 기반의 지리공간 추론 * 홍수, 산불, 대기 질 등 다양한 지리공간 AI 모델을 통합하여 지구 전체의 변화를 전례 없는 수준으로 파악할 수 있는 인프라를 구축했습니다. * '지리공간 추론 에이전트(Geospatial Reasoning Agent)'를 도입하여, 전문가가 아니더라도 자연어를 통해 복잡한 지리 데이터를 분석하고 공급망 관리나 위기 대응에 필요한 통찰을 얻을 수 있게 했습니다. * 하천 홍수 예측 모델의 범위를 전 세계 150개국, 20억 명 이상의 인구 거주 지역으로 대폭 확장하여 재난 대비 능력을 강화했습니다. * 새로운 원격 감지 파운데이션 모델과 인구 역학 모델을 공개하고, 구글 어스에 제미나이(Gemini) 기능을 탑재하여 위성 이미지 내 객체 검색 성능을 높였습니다. ### DeepSomatic 및 유전학 연구: 정밀 의료를 통한 암 정복 * 네이처 바이오테크놀로지에 발표된 'DeepSomatic'은 종양 내에서 발생하는 미세한 체세포 변이(Somatic mutations)를 정확하게 식별하여 맞춤형 암 치료를 지원합니다. * 지난 10년간의 유전학 연구 노하우를 결합하여 인간 및 비인간 게놈 지도를 정교하게 매핑하고, 질병의 근본 원인을 파악하는 데 기여하고 있습니다. * 'Cell2Sentence' 기술을 통해 단일 세포 데이터를 언어 형태로 변환함으로써, 거대 언어 모델(LLM)이 생물학적 데이터를 학습하고 질병의 메커니즘을 추론할 수 있는 환경을 조성했습니다. ### 양자 에코(Quantum Echoes): 양자 시스템을 활용한 물리 법칙 시뮬레이션 * 양자 프로세서를 단순한 계산기가 아닌, 복잡한 물리 현상을 관찰하고 시뮬레이션하는 강력한 도구로 활용하고 있습니다. * '양자 에코' 기법을 통해 양자 시스템 내에서 정보가 어떻게 확산되고 소멸되는지(Information Scrambling)를 정밀하게 측정하는 데 성공했습니다. * 이러한 성과는 양자 컴퓨팅의 성능을 검증하는 벤치마크로 활용될 뿐만 아니라, 기존 고전 컴퓨터로는 불가능했던 물리적 난제들을 해결하는 가교 역할을 합니다. AI는 이제 단순한 소프트웨어 기술을 넘어 과학적 발견의 속도를 기하급수적으로 높이는 '가속기'가 되었습니다. 구글이 공개한 DeepSomatic과 같은 도구들과 지구 환경 모델들을 적극 활용한다면, 의료 및 환경 분야의 복잡한 문제들을 해결하는 데 있어 기술적 진입 장벽을 낮추고 혁신적인 솔루션을 빠르게 도출할 수 있을 것입니다.

DeepSomatic으로 종양 (새 탭에서 열림)

DeepSomatic은 구글 리서치가 개발한 AI 기반 도구로, 암 세포에서 발생하는 후천적 유전 변이(체세포 변이)를 정밀하게 식별하여 맞춤형 암 치료를 지원합니다. 기존 방식보다 높은 정확도를 자랑하는 이 모델은 합성곱 신경망(CNN)을 활용해 다양한 시퀀싱 플랫폼과 샘플 유형에 유연하게 대응할 수 있도록 설계되었습니다. 연구팀은 이 도구와 고품질 학습 데이터셋을 오픈소스로 공개하여 정밀 의료 및 암 연구의 가속화를 도모하고 있습니다. ### 체세포 변이 식별의 기술적 난제 * 암은 DNA 복제 오류나 환경적 요인으로 인해 출생 후 발생하는 '체세포 변이(Somatic variants)'에 의해 유발되며, 이는 종양의 발생과 전이를 주도합니다. * 모든 세포에 존재하는 부모로부터 물려받은 '생식세포 변이(Germline variants)'와 달리, 체세포 변이는 종양 내 특정 세포군에서만 서로 다른 빈도로 나타나기 때문에 식별이 매우 어렵습니다. * 특히 시퀀싱 과정에서 발생하는 미세한 기계적 오류율이 실제 체세포 변이의 발생률보다 높을 수 있어, 단순 노이즈와 실제 암 유발 변이를 정확히 구분하는 기술이 필수적입니다. ### 합성곱 신경망(CNN) 기반의 이미지 분석 기법 * DeepSomatic은 유전체 시퀀싱 데이터를 이미지 형태로 변환하여 분석하며, 이는 구글의 기존 도구인 DeepVariant의 메커니즘을 발전시킨 방식입니다. * 변환된 이미지는 염색체 정렬 상태, 시퀀싱 품질 등 다양한 변수를 시각화하여 포함하며, CNN 모델이 이 이미지를 학습하여 패턴을 인식합니다. * 모델은 참조 유전체(Reference genome), 개인의 고유한 생식세포 변이, 그리고 암으로 인한 체세포 변이를 삼차원적으로 비교 분석하여 시퀀싱 오류를 효과적으로 걸러내고 실제 변이 목록을 도출합니다. ### 다양한 임상 환경에 최적화된 분석 모드 * 종양 세포와 정상 세포를 함께 분석하는 '쌍체 모드(Paired mode)'를 통해 변이의 기원을 명확히 판별할 수 있습니다. * 정상 세포를 확보하기 어려운 혈액암(백혈병 등)과 같은 상황을 위해, 종양 데이터만으로 변이를 찾는 '종양 전용 모드(Tumor-only mode)'도 지원하여 활용도를 높였습니다. * 모든 주요 시퀀싱 플랫폼 데이터와 호환되며, 학습 과정에서 다루지 않은 새로운 암 종류에 대해서도 뛰어난 일반화 성능과 정확도를 보여줍니다. DeepSomatic은 암의 복잡한 유전적 특성을 파악하는 데 강력한 분석력을 제공하며, 특히 희귀하거나 미세한 변이를 찾아내는 데 탁월한 성능을 발휘합니다. 연구자와 임상의는 오픈소스로 공개된 이 도구와 CASTLE 데이터셋을 활용해 환자 개개인의 암 특성에 최적화된 맞춤형 치료 전략을 수립함으로써 정밀 의료의 실현을 앞당길 수 있을 것으로 기대됩니다.

DeepPolisher를 통한 (새 탭에서 열림)

구글 리서치와 UC 산타크루즈 게놈 연구소가 공동 개발한 DeepPolisher는 게놈 조립 과정에서 발생하는 염기 서열 오류를 정밀하게 수정하여 유전체 연구의 정확도를 획기적으로 높이는 딥러닝 도구입니다. 트랜스포머(Transformer) 아키텍처를 기반으로 설계된 이 기술은 기존 방식 대비 전체 오류의 50%, 특히 유전자 식별에 치명적인 삽입 및 삭제(indel) 오류를 70%까지 줄이는 성과를 거두었습니다. 이를 통해 연구자들은 질병 진단과 유전적 변이 분석의 신뢰성을 확보하고 보다 완벽에 가까운 참조 게놈(Reference Genome)을 구축할 수 있게 되었습니다. ## 게놈 조립의 과제와 인델 오류의 영향 * 유전체는 약 30억 개의 염기(A, T, G, C)로 구성되어 있어, 아주 낮은 오류율이라도 전체 게놈에서는 방대한 수의 데이터 결함으로 이어집니다. * 특히 염기가 추가되거나 빠지는 삽입 및 삭제(indel) 오류는 단백질 코딩 서열을 왜곡하여 유전자를 정확히 식별하거나 질병의 원인이 되는 변이를 찾는 과정을 방해합니다. * 유전체 지도를 완성하기 위해서는 동일한 게놈을 여러 번 시퀀싱하여 반복적으로 오류를 수정하는 과정이 필요하지만, 기존의 보정 기술로는 완벽한 정확도에 도달하는 데 한계가 있었습니다. ## 시퀀싱 기술의 발전과 DeepPolisher의 등장 배경 * 과거 Illumina의 숏리드(Short-read) 방식은 정확도는 높으나 길이가 짧아 복잡한 게놈 구조를 파악하기 어려웠고, PacBio의 롱리드(Long-read) 방식은 초기 오류율이 높다는 단점이 있었습니다. * 구글과 PacBio는 협력을 통해 오류율을 0.1% 미만으로 낮춘 DeepConsensus 기술을 개발했으나, 참조 게놈급의 고정밀 지도를 만들기 위해서는 여러 DNA 분자 정보를 통합해 남은 오류를 잡아낼 추가 도구가 필요했습니다. * DeepPolisher는 이러한 배경에서 탄생했으며, 다수의 시퀀싱 리드(reads)를 동시에 분석하여 조립된 게놈의 미세한 결함을 찾아내고 수정하는 최종 폴리싱 역할을 수행합니다. ## 트랜스포머 아키텍처와 학습 데이터 * DeepPolisher는 언어 모델에서 성능이 검증된 트랜스포머 신경망 아키텍처를 채택하여 서열 데이터 내의 복잡한 패턴을 학습합니다. * 모델 학습에는 NIST(미국 국립표준기술연구소)와 NHGRI가 정밀하게 분석하여 정확도가 99.99999%에 달하는 인간 세포주 게놈 데이터를 사용했습니다. * 입력 데이터로 시퀀싱된 염기 정보, 데이터의 품질 점수(Quality score), 그리고 각 리드가 조립된 게놈에 정렬된 형태를 활용하여 실제 유전적 변이와 기계적 노이즈를 정확히 구분해냅니다. DeepPolisher는 현재 오픈 소스로 공개되어 있으며, 휴먼 판게놈 참조 게놈(Human Pangenome Reference) 구축과 같은 최첨단 유전체 프로젝트에서 핵심적인 역할을 수행하고 있습니다. 정밀한 유전체 분석이 필요한 연구팀은 이 도구를 통해 데이터의 신뢰성을 극대화할 수 있을 것입니다.

M-REGLE과 멀티 (새 탭에서 열림)

Google Research에서 발표한 M-REGLE(Multimodal REpresentation learning for Genetic discovery on Low-dimensional Embeddings)은 심전도(ECG)와 광혈류측정(PPG) 등 다양한 건강 데이터를 통합 분석하여 질병의 유전적 원인을 밝혀내는 인공지능 프레임워크입니다. 이 모델은 여러 데이터 스트림을 결합해 하나의 잠재적 '서명'을 학습함으로써 기존 단일 모달리티 분석보다 더 풍부한 생물학적 신호를 포착하고 데이터 노이즈를 효과적으로 줄입니다. 결과적으로 M-REGLE은 유전적 연관성 발견 효율을 극대화하고 심혈관 질환 예측 성능을 획기적으로 향상시켰습니다. ### M-REGLE의 작동 원리와 다중 모달리티 통합 * **통합 학습 구조**: 기존의 U-REGLE이 각 데이터를 개별적으로 분석한 것과 달리, M-REGLE은 12유도 ECG의 각 리드나 ECG와 PPG 데이터를 분석 전 단계에서 결합하여 공동 학습합니다. * **CVAE 및 PCA 활용**: 합성곱 변이형 오토인코더(CVAE)를 사용하여 복잡한 파형 데이터를 저차원의 잠재 인자(latent factors)로 압축하며, 이후 주성분 분석(PCA)을 적용해 각 인자 간의 독립성을 확보합니다. * **GWAS 연계**: 추출된 독립적 인자들을 전장 유전체 연관 분석(GWAS)과 결합하여, 특정 생리적 신호와 연관된 유전적 변이를 통계적으로 정밀하게 찾아냅니다. ### 데이터 표현력 및 해석 가능성 강화 * **재구성 오류 감소**: M-REGLE은 단일 모달리티 모델 대비 데이터 재구성 오류를 대폭 줄였으며, 특히 12유도 ECG 분석에서 오류를 약 72.5% 감소시켜 원본 파형의 핵심 정보를 더 정확하게 보존함을 입증했습니다. * **잠재 임베딩의 시각화**: 생성형 AI의 특성을 활용해 특정 임베딩 좌표를 변경할 때 재구성되는 파형(예: T파의 변화, 심박수 등)이 어떻게 변하는지 확인하여 모델의 판단 근거를 시각적으로 해석할 수 있습니다. * **질병 식별 지표**: 심방세동(AFib) 환자와 정상인을 구분하는 데 결정적인 역할을 하는 특정 임베딩 좌표(4번, 6번, 10번 등)를 식별하여 임상적 유용성을 더했습니다. ### 유전적 발견 성과 및 질병 예측 성능 * **발견 효율 극대화**: M-REGLE은 ECG와 PPG 통합 분석을 통해 총 773개의 고유한 유전적 위치(loci)를 발견했습니다. 이는 단일 유도 ECG 분석보다 4.3배, 개별 분석 후 통합하는 방식(U-REGLE)보다 2.6배 더 많은 수치입니다. * **다유전자 위험 점수(PRS) 개선**: M-REGLE을 통해 도출된 유전적 지표는 기존의 전문가 설계 특징(심박수 등)이나 단일 모달리티 모델보다 질병 예측 성능이 뛰어났습니다. * **임상적 검증**: UK 바이오뱅크 데이터를 활용한 검증 결과, 심방세동 및 심부전과 같은 주요 심혈관 질환의 발병 위험을 예측하는 데 있어 가장 높은 정확도를 기록했습니다. --- M-REGLE은 스마트워치와 같은 웨어러블 기기에서 생성되는 PPG 데이터와 병원의 전문적인 ECG 데이터를 결합함으로써, 일상과 임상을 잇는 강력한 질병 예측 도구가 될 수 있습니다. 향후 다양한 장기 시스템의 멀티모달 데이터에 이 방식을 적용한다면, 복합 질환의 유전적 메커니즘을 규명하고 환자 맞춤형 정밀 의료를 실현하는 데 핵심적인 역할을 할 것으로 기대됩니다.