bioinformatics

4 개의 포스트

DeepSomatic으로 종양 (새 탭에서 열림)

DeepSomatic은 구글 리서치가 개발한 AI 기반 도구로, 암 세포에서 발생하는 후천적 유전 변이(체세포 변이)를 정밀하게 식별하여 맞춤형 암 치료를 지원합니다. 기존 방식보다 높은 정확도를 자랑하는 이 모델은 합성곱 신경망(CNN)을 활용해 다양한 시퀀싱 플랫폼과 샘플 유형에 유연하게 대응할 수 있도록 설계되었습니다. 연구팀은 이 도구와 고품질 학습 데이터셋을 오픈소스로 공개하여 정밀 의료 및 암 연구의 가속화를 도모하고 있습니다. ### 체세포 변이 식별의 기술적 난제 * 암은 DNA 복제 오류나 환경적 요인으로 인해 출생 후 발생하는 '체세포 변이(Somatic variants)'에 의해 유발되며, 이는 종양의 발생과 전이를 주도합니다. * 모든 세포에 존재하는 부모로부터 물려받은 '생식세포 변이(Germline variants)'와 달리, 체세포 변이는 종양 내 특정 세포군에서만 서로 다른 빈도로 나타나기 때문에 식별이 매우 어렵습니다. * 특히 시퀀싱 과정에서 발생하는 미세한 기계적 오류율이 실제 체세포 변이의 발생률보다 높을 수 있어, 단순 노이즈와 실제 암 유발 변이를 정확히 구분하는 기술이 필수적입니다. ### 합성곱 신경망(CNN) 기반의 이미지 분석 기법 * DeepSomatic은 유전체 시퀀싱 데이터를 이미지 형태로 변환하여 분석하며, 이는 구글의 기존 도구인 DeepVariant의 메커니즘을 발전시킨 방식입니다. * 변환된 이미지는 염색체 정렬 상태, 시퀀싱 품질 등 다양한 변수를 시각화하여 포함하며, CNN 모델이 이 이미지를 학습하여 패턴을 인식합니다. * 모델은 참조 유전체(Reference genome), 개인의 고유한 생식세포 변이, 그리고 암으로 인한 체세포 변이를 삼차원적으로 비교 분석하여 시퀀싱 오류를 효과적으로 걸러내고 실제 변이 목록을 도출합니다. ### 다양한 임상 환경에 최적화된 분석 모드 * 종양 세포와 정상 세포를 함께 분석하는 '쌍체 모드(Paired mode)'를 통해 변이의 기원을 명확히 판별할 수 있습니다. * 정상 세포를 확보하기 어려운 혈액암(백혈병 등)과 같은 상황을 위해, 종양 데이터만으로 변이를 찾는 '종양 전용 모드(Tumor-only mode)'도 지원하여 활용도를 높였습니다. * 모든 주요 시퀀싱 플랫폼 데이터와 호환되며, 학습 과정에서 다루지 않은 새로운 암 종류에 대해서도 뛰어난 일반화 성능과 정확도를 보여줍니다. DeepSomatic은 암의 복잡한 유전적 특성을 파악하는 데 강력한 분석력을 제공하며, 특히 희귀하거나 미세한 변이를 찾아내는 데 탁월한 성능을 발휘합니다. 연구자와 임상의는 오픈소스로 공개된 이 도구와 CASTLE 데이터셋을 활용해 환자 개개인의 암 특성에 최적화된 맞춤형 치료 전략을 수립함으로써 정밀 의료의 실현을 앞당길 수 있을 것으로 기대됩니다.

NucleoBench와 AdaBeam). (새 탭에서 열림)

Google Research와 Move37 Labs는 핵산(DNA/RNA) 서열 설계를 위한 표준화된 벤치마크인 ‘NucleoBench’와 새로운 최적화 알고리즘인 ‘AdaBeam’을 공개했습니다. 이 연구는 방대한 유전체 서열 탐색 공간에서 최적의 치료용 분자를 설계하기 위한 기존 알고리즘의 한계를 극복하고, 16가지 생물학적 과제 중 11개에서 기존 방식보다 뛰어난 성능을 입증했습니다. 특히 AdaBeam은 긴 서열과 복잡한 예측 모델에 최적화된 확장성을 보여주며 신약 개발 과정의 시간과 비용을 획기적으로 줄일 수 있는 가능성을 제시했습니다. ### 핵산 서열 설계의 복잡성과 최적화의 난제 * **방대한 탐색 공간**: 특정 기능을 가진 RNA 분자의 5' UTR 영역 하나만 해도 가능한 서열 조합이 $2 \times 10^{120}$개 이상으로, 단순한 무작위 탐색(Brute-force)으로는 최적의 서열을 찾는 것이 불가능합니다. * **설계 알고리즘의 병목 현상**: 최근 서열의 특성을 예측하는 AI 모델은 크게 발전했으나, 이 모델을 활용해 실제 최적의 서열을 생성해내는 '설계 알고리즘'에 대한 표준화된 평가 지표는 부족한 상황이었습니다. * **기존 방식의 한계**: 유전 알고리즘이나 시뮬레이티드 어닐링(Simulated Annealing) 같은 기존의 '그래디언트 프리(Gradient-free)' 방식은 최신 딥러닝 모델 내부의 유용한 정보(그래디언트)를 활용하지 못한다는 단점이 있습니다. ### NucleoBench: 대규모 표준 벤치마크 프레임워크 * **비교 평가의 표준화**: 16가지의 서로 다른 생물학적 도전 과제에 대해 9개의 알고리즘을 동일한 시작 서열과 조건에서 테스트하여 400,000회 이상의 실험을 수행했습니다. * **다양한 과제 범위**: 특정 세포 유형(간, 신경 세포 등)에서의 유전자 발현 제어, 전사 인자 결합 최적화, 염색질 접근성 개선, Enformer와 같은 대규모 모델을 이용한 장거리 DNA 서열 예측 등이 포함됩니다. * **알고리즘 분류**: AI 모델을 블랙박스로 취급하는 '그래디언트 프리' 방식과 신경망 내부의 개선 방향(그래디언트)을 지능적으로 추적하는 '그래디언트 기반' 방식을 체계적으로 비교 분석했습니다. ### AdaBeam: 적응형 빔 서치 기반의 하이브리드 알고리즘 * **성능 우위**: NucleoBench에서 수행된 16가지 과제 중 11가지에서 기존의 최첨단 알고리즘(FastSeqProp, Ledidi 등)을 능가하는 성적을 거두었습니다. * **탁월한 확장성**: 서열의 길이가 길어지거나 예측 모델의 크기가 커질수록 성능 차이가 더욱 두드러지며, 특히 긴 DNA 서열을 다루는 복잡한 생물학적 모델에서 높은 효율성을 보입니다. * **하이브리드 접근**: 그래디언트 정보를 활용하면서도 탐색의 효율성을 극대화하는 적응형 구조를 채택하여, 모델의 예측 정확도를 최대한 활용하면서도 계산 비용을 최적화했습니다. ### 실용적인 시사점 연구진은 AdaBeam 알고리즘과 NucleoBench 프레임워크를 오픈소스로 공개하여 누구나 활용할 수 있도록 했습니다. 더 정교한 CRISPR 유전자 치료제나 안정성이 높은 mRNA 백신을 설계하려는 연구자들은 이 도구들을 통해 자신의 예측 모델에 가장 적합한 설계 알고리즘을 선택하고, 실제 실험(Wet lab) 이전에 계산적으로 검증된 최적의 후보 서열을 도출함으로써 연구의 성공률을 높일 수 있습니다.

DeepPolisher를 통한 (새 탭에서 열림)

구글 리서치와 UC 산타크루즈 게놈 연구소가 공동 개발한 DeepPolisher는 게놈 조립 과정에서 발생하는 염기 서열 오류를 정밀하게 수정하여 유전체 연구의 정확도를 획기적으로 높이는 딥러닝 도구입니다. 트랜스포머(Transformer) 아키텍처를 기반으로 설계된 이 기술은 기존 방식 대비 전체 오류의 50%, 특히 유전자 식별에 치명적인 삽입 및 삭제(indel) 오류를 70%까지 줄이는 성과를 거두었습니다. 이를 통해 연구자들은 질병 진단과 유전적 변이 분석의 신뢰성을 확보하고 보다 완벽에 가까운 참조 게놈(Reference Genome)을 구축할 수 있게 되었습니다. ## 게놈 조립의 과제와 인델 오류의 영향 * 유전체는 약 30억 개의 염기(A, T, G, C)로 구성되어 있어, 아주 낮은 오류율이라도 전체 게놈에서는 방대한 수의 데이터 결함으로 이어집니다. * 특히 염기가 추가되거나 빠지는 삽입 및 삭제(indel) 오류는 단백질 코딩 서열을 왜곡하여 유전자를 정확히 식별하거나 질병의 원인이 되는 변이를 찾는 과정을 방해합니다. * 유전체 지도를 완성하기 위해서는 동일한 게놈을 여러 번 시퀀싱하여 반복적으로 오류를 수정하는 과정이 필요하지만, 기존의 보정 기술로는 완벽한 정확도에 도달하는 데 한계가 있었습니다. ## 시퀀싱 기술의 발전과 DeepPolisher의 등장 배경 * 과거 Illumina의 숏리드(Short-read) 방식은 정확도는 높으나 길이가 짧아 복잡한 게놈 구조를 파악하기 어려웠고, PacBio의 롱리드(Long-read) 방식은 초기 오류율이 높다는 단점이 있었습니다. * 구글과 PacBio는 협력을 통해 오류율을 0.1% 미만으로 낮춘 DeepConsensus 기술을 개발했으나, 참조 게놈급의 고정밀 지도를 만들기 위해서는 여러 DNA 분자 정보를 통합해 남은 오류를 잡아낼 추가 도구가 필요했습니다. * DeepPolisher는 이러한 배경에서 탄생했으며, 다수의 시퀀싱 리드(reads)를 동시에 분석하여 조립된 게놈의 미세한 결함을 찾아내고 수정하는 최종 폴리싱 역할을 수행합니다. ## 트랜스포머 아키텍처와 학습 데이터 * DeepPolisher는 언어 모델에서 성능이 검증된 트랜스포머 신경망 아키텍처를 채택하여 서열 데이터 내의 복잡한 패턴을 학습합니다. * 모델 학습에는 NIST(미국 국립표준기술연구소)와 NHGRI가 정밀하게 분석하여 정확도가 99.99999%에 달하는 인간 세포주 게놈 데이터를 사용했습니다. * 입력 데이터로 시퀀싱된 염기 정보, 데이터의 품질 점수(Quality score), 그리고 각 리드가 조립된 게놈에 정렬된 형태를 활용하여 실제 유전적 변이와 기계적 노이즈를 정확히 구분해냅니다. DeepPolisher는 현재 오픈 소스로 공개되어 있으며, 휴먼 판게놈 참조 게놈(Human Pangenome Reference) 구축과 같은 최첨단 유전체 프로젝트에서 핵심적인 역할을 수행하고 있습니다. 정밀한 유전체 분석이 필요한 연구팀은 이 도구를 통해 데이터의 신뢰성을 극대화할 수 있을 것입니다.

기계에게 생물학의 언 (새 탭에서 열림)

예일 대학교와 구글 리서치는 복잡한 단일 세포 RNA 시퀀싱(scRNA-seq) 데이터를 텍스트 형식으로 변환하여 대규모 언어 모델(LLM)이 해석할 수 있도록 하는 'C2S-Scale(Cell2Sentence-Scale)'을 공개했습니다. 이 기술은 유전자 발현 수준에 따라 유전자 이름을 정렬해 '세포 문장(cell sentence)'을 생성함으로써, 고차원의 생물학적 데이터를 자연어처럼 처리하고 분석할 수 있는 혁신적인 접근법을 제시합니다. 이를 통해 연구자들은 전문적인 코드 없이도 세포의 상태나 약물 반응 등을 일상 언어로 질문하고 답변을 얻을 수 있는 대화형 분석 환경을 갖게 되었습니다. ### 세포 데이터를 문장으로 변환하는 메커니즘 * 단일 세포의 유전자 발현 프로필을 수치 데이터가 아닌, 발현량이 높은 순서대로 유전자 이름을 나열한 '세포 문장'으로 변환합니다. * 유전자 이름, 세포 유형, 실험 메타데이터 등 이미 텍스트로 존재하는 생물학적 정보와 결합하여 LLM이 생물학적 문맥을 자연스럽게 학습하도록 설계되었습니다. * 자연어를 인터페이스로 사용함으로써 복잡한 고차원 데이터를 직관적이고 유연하게 해석할 수 있으며, 기존 LLM 인프라를 그대로 활용할 수 있는 확장성을 확보했습니다. ### C2S-Scale 모델 제품군 및 아키텍처 * 구글의 오픈 모델인 '젬마(Gemma)' 아키텍처를 기반으로 구축되었으며, 실제 전사체 데이터와 생물학적 문헌 등 10억 개 이상의 토큰을 포함한 데이터셋으로 학습되었습니다. * 연구자의 컴퓨팅 자원과 목적에 맞게 선택할 수 있도록 4억 1,000만 개(410M)부터 270억 개(27B)의 매개변수를 가진 다양한 크기의 모델 라인업을 제공합니다. * 모든 모델은 오픈 소스로 공개되어 HuggingFace와 GitHub를 통해 누구나 미세 조정(Fine-tuning)하거나 연구에 즉시 활용할 수 있습니다. ### 자연어를 통한 생물학 데이터 해석 및 성능 * **대화형 질의응답:** "이 T 세포가 항암 치료제에 어떻게 반응할까?"와 같은 질문에 대해 모델이 세포 데이터와 사전 학습된 생물학 지식을 결합하여 자연어로 답변합니다. * **자동 데이터 요약:** 단일 세포의 유형 식별부터 조직 전체의 실험 결과 요약까지, 복잡한 데이터를 생물학적 의미가 담긴 텍스트로 자동 생성하여 연구자의 해석을 돕습니다. * **생물학적 스케일링 법칙:** 일반적인 LLM과 마찬가지로 모델의 크기가 커질수록 세포 유형 주석(Annotation) 및 데이터 생성 능력이 예측 가능한 수준으로 정교해지는 '스케일링 법칙'이 적용됨을 입증했습니다. C2S-Scale은 생물학 데이터를 '언어'의 영역으로 통합함으로써 전문가 위주의 단일 세포 분석 문턱을 크게 낮췄습니다. 생물학 연구자들은 공개된 모델을 활용해 자신의 실험 데이터를 시각화하는 수준을 넘어, 세포와 직접 대화하며 가설을 검증하는 새로운 차원의 연구 워크플로우를 구축해 볼 수 있을 것입니다.