convolutional-neural-networks

2 개의 포스트

단 몇 개의 예시 (새 탭에서 열림)

구글 연구진은 대규모 언어 모델인 제미나이(Gemini)에 설문당 단 15개의 주석이 달린 예시만을 학습시키는 '소수 샷 학습(Few-shot Learning)'을 통해, 초신성과 같은 우주 현상을 93%의 정확도로 분류하는 전문가급 천문학 어시스턴트를 개발했습니다. 이 모델은 단순히 '진짜' 혹은 '가짜' 신호를 구분하는 것을 넘어, 자신의 판단 근거를 일상 언어로 설명함으로써 기존 머신러닝 모델의 '블랙박스' 문제를 해결했습니다. 이러한 연구 결과는 매일 밤 수천만 개의 알림이 발생하는 차세대 천문 관측 시대에 과학자들이 데이터를 효율적으로 검증하고 신뢰할 수 있는 협업 도구로 활용될 가능성을 보여줍니다. **기존 천문학 데이터 처리의 병목 현상** * 현대 천문학 관측 장비는 매일 밤 수백만 개의 신호를 생성하지만, 이 중 대다수는 위성 궤적이나 노이즈 같은 가짜 신호(bogus)입니다. * 기존에는 컨볼루션 신경망(CNN) 같은 특화된 모델을 사용해 왔으나, 판단 근거를 설명하지 못하는 '블랙박스' 구조라는 한계가 있었습니다. * 베라 C. 루빈 천문대와 같은 차세대 망원경이 가동되면 매일 밤 1,000만 개의 알림이 쏟아질 예정이어서, 과학자들이 일일이 수동으로 확인하는 것은 불가능에 가깝습니다. **소수 샷 학습을 통한 다중 양식 모델의 진화** * 수백만 개의 데이터로 학습시키는 대신, Pan-STARRS, MeerLICHT, ATLAS 등 세 가지 주요 천문 조사 데이터에서 각각 15개의 예시만 사용했습니다. * 각 학습 예시는 새로운 이미지, 과거의 참조 이미지, 두 이미지의 차이를 보여주는 차분 이미지와 함께 전문가의 주석 및 관심도 점수로 구성되었습니다. * 제미나이는 망원경마다 다른 해상도와 픽셀 스케일에도 불구하고, 최소한의 정보만으로 서로 다른 천문 관측 환경의 데이터를 일반화하여 처리하는 능력을 보여주었습니다. **설명 가능한 AI와 전문가 수준의 정확도** * 제미나이는 특화된 CNN 모델과 대등한 93%의 평균 정확도를 기록하며 우주 이벤트를 분류해냈습니다. * 모델은 레이블뿐만 아니라 관찰된 특징을 설명하는 텍스트와 후속 관측 우선순위를 정할 수 있는 관심도 점수(0~5점)를 함께 생성합니다. * 12명의 전문 천문학자 패널이 검토한 결과, 모델의 설명은 논리적 일관성이 매우 높았으며 실제 전문가의 추론 방식과 일치함을 확인했습니다. **모델의 자가 불확실성 평가 능력** * 모델이 스스로 자신의 설명에 대해 '일관성 점수(coherence score)'를 매기도록 유도하는 중요한 발견을 했습니다. * 일관성 점수가 낮게 측정된 경우 실제 오분류일 확률이 높다는 사실이 밝혀졌으며, 이는 모델이 스스로 언제 오류를 범할지 판단할 수 있음을 의미합니다. * 이러한 자가 진단 기능은 과학자들이 어떤 데이터를 추가로 정밀 검토해야 하는지 판단하는 데 결정적인 도움을 줍니다. 이번 연구는 범용 멀티모달 모델이 최소한의 가이드라인만으로도 고도의 전문 과학 영역에서 블랙박스 없는 투명한 파트너가 될 수 있음을 입증했습니다. 천문학자들은 이제 방대한 데이터 속에서 유망한 후보를 찾기 위해 모델과 대화하며 추론 과정을 검토할 수 있으며, 이는 향후 대규모 데이터가 쏟아지는 모든 과학 연구 분야에 중요한 이정표가 될 것입니다.

DeepSomatic으로 종양 (새 탭에서 열림)

DeepSomatic은 구글 리서치가 개발한 AI 기반 도구로, 암 세포에서 발생하는 후천적 유전 변이(체세포 변이)를 정밀하게 식별하여 맞춤형 암 치료를 지원합니다. 기존 방식보다 높은 정확도를 자랑하는 이 모델은 합성곱 신경망(CNN)을 활용해 다양한 시퀀싱 플랫폼과 샘플 유형에 유연하게 대응할 수 있도록 설계되었습니다. 연구팀은 이 도구와 고품질 학습 데이터셋을 오픈소스로 공개하여 정밀 의료 및 암 연구의 가속화를 도모하고 있습니다. ### 체세포 변이 식별의 기술적 난제 * 암은 DNA 복제 오류나 환경적 요인으로 인해 출생 후 발생하는 '체세포 변이(Somatic variants)'에 의해 유발되며, 이는 종양의 발생과 전이를 주도합니다. * 모든 세포에 존재하는 부모로부터 물려받은 '생식세포 변이(Germline variants)'와 달리, 체세포 변이는 종양 내 특정 세포군에서만 서로 다른 빈도로 나타나기 때문에 식별이 매우 어렵습니다. * 특히 시퀀싱 과정에서 발생하는 미세한 기계적 오류율이 실제 체세포 변이의 발생률보다 높을 수 있어, 단순 노이즈와 실제 암 유발 변이를 정확히 구분하는 기술이 필수적입니다. ### 합성곱 신경망(CNN) 기반의 이미지 분석 기법 * DeepSomatic은 유전체 시퀀싱 데이터를 이미지 형태로 변환하여 분석하며, 이는 구글의 기존 도구인 DeepVariant의 메커니즘을 발전시킨 방식입니다. * 변환된 이미지는 염색체 정렬 상태, 시퀀싱 품질 등 다양한 변수를 시각화하여 포함하며, CNN 모델이 이 이미지를 학습하여 패턴을 인식합니다. * 모델은 참조 유전체(Reference genome), 개인의 고유한 생식세포 변이, 그리고 암으로 인한 체세포 변이를 삼차원적으로 비교 분석하여 시퀀싱 오류를 효과적으로 걸러내고 실제 변이 목록을 도출합니다. ### 다양한 임상 환경에 최적화된 분석 모드 * 종양 세포와 정상 세포를 함께 분석하는 '쌍체 모드(Paired mode)'를 통해 변이의 기원을 명확히 판별할 수 있습니다. * 정상 세포를 확보하기 어려운 혈액암(백혈병 등)과 같은 상황을 위해, 종양 데이터만으로 변이를 찾는 '종양 전용 모드(Tumor-only mode)'도 지원하여 활용도를 높였습니다. * 모든 주요 시퀀싱 플랫폼 데이터와 호환되며, 학습 과정에서 다루지 않은 새로운 암 종류에 대해서도 뛰어난 일반화 성능과 정확도를 보여줍니다. DeepSomatic은 암의 복잡한 유전적 특성을 파악하는 데 강력한 분석력을 제공하며, 특히 희귀하거나 미세한 변이를 찾아내는 데 탁월한 성능을 발휘합니다. 연구자와 임상의는 오픈소스로 공개된 이 도구와 CASTLE 데이터셋을 활용해 환자 개개인의 암 특성에 최적화된 맞춤형 치료 전략을 수립함으로써 정밀 의료의 실현을 앞당길 수 있을 것으로 기대됩니다.