기계에게 생물학의 언 (새 탭에서 열림)
예일 대학교와 구글 리서치는 복잡한 단일 세포 RNA 시퀀싱(scRNA-seq) 데이터를 텍스트 형식으로 변환하여 대규모 언어 모델(LLM)이 해석할 수 있도록 하는 'C2S-Scale(Cell2Sentence-Scale)'을 공개했습니다. 이 기술은 유전자 발현 수준에 따라 유전자 이름을 정렬해 '세포 문장(cell sentence)'을 생성함으로써, 고차원의 생물학적 데이터를 자연어처럼 처리하고 분석할 수 있는 혁신적인 접근법을 제시합니다. 이를 통해 연구자들은 전문적인 코드 없이도 세포의 상태나 약물 반응 등을 일상 언어로 질문하고 답변을 얻을 수 있는 대화형 분석 환경을 갖게 되었습니다.
세포 데이터를 문장으로 변환하는 메커니즘
- 단일 세포의 유전자 발현 프로필을 수치 데이터가 아닌, 발현량이 높은 순서대로 유전자 이름을 나열한 '세포 문장'으로 변환합니다.
- 유전자 이름, 세포 유형, 실험 메타데이터 등 이미 텍스트로 존재하는 생물학적 정보와 결합하여 LLM이 생물학적 문맥을 자연스럽게 학습하도록 설계되었습니다.
- 자연어를 인터페이스로 사용함으로써 복잡한 고차원 데이터를 직관적이고 유연하게 해석할 수 있으며, 기존 LLM 인프라를 그대로 활용할 수 있는 확장성을 확보했습니다.
C2S-Scale 모델 제품군 및 아키텍처
- 구글의 오픈 모델인 '젬마(Gemma)' 아키텍처를 기반으로 구축되었으며, 실제 전사체 데이터와 생물학적 문헌 등 10억 개 이상의 토큰을 포함한 데이터셋으로 학습되었습니다.
- 연구자의 컴퓨팅 자원과 목적에 맞게 선택할 수 있도록 4억 1,000만 개(410M)부터 270억 개(27B)의 매개변수를 가진 다양한 크기의 모델 라인업을 제공합니다.
- 모든 모델은 오픈 소스로 공개되어 HuggingFace와 GitHub를 통해 누구나 미세 조정(Fine-tuning)하거나 연구에 즉시 활용할 수 있습니다.
자연어를 통한 생물학 데이터 해석 및 성능
- 대화형 질의응답: "이 T 세포가 항암 치료제에 어떻게 반응할까?"와 같은 질문에 대해 모델이 세포 데이터와 사전 학습된 생물학 지식을 결합하여 자연어로 답변합니다.
- 자동 데이터 요약: 단일 세포의 유형 식별부터 조직 전체의 실험 결과 요약까지, 복잡한 데이터를 생물학적 의미가 담긴 텍스트로 자동 생성하여 연구자의 해석을 돕습니다.
- 생물학적 스케일링 법칙: 일반적인 LLM과 마찬가지로 모델의 크기가 커질수록 세포 유형 주석(Annotation) 및 데이터 생성 능력이 예측 가능한 수준으로 정교해지는 '스케일링 법칙'이 적용됨을 입증했습니다.
C2S-Scale은 생물학 데이터를 '언어'의 영역으로 통합함으로써 전문가 위주의 단일 세포 분석 문턱을 크게 낮췄습니다. 생물학 연구자들은 공개된 모델을 활용해 자신의 실험 데이터를 시각화하는 수준을 넘어, 세포와 직접 대화하며 가설을 검증하는 새로운 차원의 연구 워크플로우를 구축해 볼 수 있을 것입니다.