genome-assembly

1 개의 포스트

DeepPolisher를 통한 (새 탭에서 열림)

구글 리서치와 UC 산타크루즈 게놈 연구소가 공동 개발한 DeepPolisher는 게놈 조립 과정에서 발생하는 염기 서열 오류를 정밀하게 수정하여 유전체 연구의 정확도를 획기적으로 높이는 딥러닝 도구입니다. 트랜스포머(Transformer) 아키텍처를 기반으로 설계된 이 기술은 기존 방식 대비 전체 오류의 50%, 특히 유전자 식별에 치명적인 삽입 및 삭제(indel) 오류를 70%까지 줄이는 성과를 거두었습니다. 이를 통해 연구자들은 질병 진단과 유전적 변이 분석의 신뢰성을 확보하고 보다 완벽에 가까운 참조 게놈(Reference Genome)을 구축할 수 있게 되었습니다. ## 게놈 조립의 과제와 인델 오류의 영향 * 유전체는 약 30억 개의 염기(A, T, G, C)로 구성되어 있어, 아주 낮은 오류율이라도 전체 게놈에서는 방대한 수의 데이터 결함으로 이어집니다. * 특히 염기가 추가되거나 빠지는 삽입 및 삭제(indel) 오류는 단백질 코딩 서열을 왜곡하여 유전자를 정확히 식별하거나 질병의 원인이 되는 변이를 찾는 과정을 방해합니다. * 유전체 지도를 완성하기 위해서는 동일한 게놈을 여러 번 시퀀싱하여 반복적으로 오류를 수정하는 과정이 필요하지만, 기존의 보정 기술로는 완벽한 정확도에 도달하는 데 한계가 있었습니다. ## 시퀀싱 기술의 발전과 DeepPolisher의 등장 배경 * 과거 Illumina의 숏리드(Short-read) 방식은 정확도는 높으나 길이가 짧아 복잡한 게놈 구조를 파악하기 어려웠고, PacBio의 롱리드(Long-read) 방식은 초기 오류율이 높다는 단점이 있었습니다. * 구글과 PacBio는 협력을 통해 오류율을 0.1% 미만으로 낮춘 DeepConsensus 기술을 개발했으나, 참조 게놈급의 고정밀 지도를 만들기 위해서는 여러 DNA 분자 정보를 통합해 남은 오류를 잡아낼 추가 도구가 필요했습니다. * DeepPolisher는 이러한 배경에서 탄생했으며, 다수의 시퀀싱 리드(reads)를 동시에 분석하여 조립된 게놈의 미세한 결함을 찾아내고 수정하는 최종 폴리싱 역할을 수행합니다. ## 트랜스포머 아키텍처와 학습 데이터 * DeepPolisher는 언어 모델에서 성능이 검증된 트랜스포머 신경망 아키텍처를 채택하여 서열 데이터 내의 복잡한 패턴을 학습합니다. * 모델 학습에는 NIST(미국 국립표준기술연구소)와 NHGRI가 정밀하게 분석하여 정확도가 99.99999%에 달하는 인간 세포주 게놈 데이터를 사용했습니다. * 입력 데이터로 시퀀싱된 염기 정보, 데이터의 품질 점수(Quality score), 그리고 각 리드가 조립된 게놈에 정렬된 형태를 활용하여 실제 유전적 변이와 기계적 노이즈를 정확히 구분해냅니다. DeepPolisher는 현재 오픈 소스로 공개되어 있으며, 휴먼 판게놈 참조 게놈(Human Pangenome Reference) 구축과 같은 최첨단 유전체 프로젝트에서 핵심적인 역할을 수행하고 있습니다. 정밀한 유전체 분석이 필요한 연구팀은 이 도구를 통해 데이터의 신뢰성을 극대화할 수 있을 것입니다.