deep-learning

10 개의 포스트

건강 인사이트의 활용: 스마트 (새 탭에서 열림)

구글 연구팀은 대규모 검증 연구를 통해 스마트워치가 보행 지표를 정밀하게 추정할 수 있는 매우 신뢰할 수 있는 플랫폼임을 입증했습니다. 이 연구는 기존의 고가 실험 장비나 스마트폰 위치의 제약에서 벗어나, 손목 위 기기만으로 보행 속도와 보폭 등 복합적인 시공간적 보행 지표를 연속적으로 모니터링할 수 있는 기술적 기반을 마련했습니다. 결과적으로 스마트워치는 스마트폰과 대등한 수준의 정확도를 보여주며 비침습적인 건강 관리 및 질병 모니터링 도구로서의 가능성을 확인했습니다. **손목 데이터를 위한 딥러닝 모델 설계** * **다중 출력 TCN 모델:** 기존 연구들이 시점 추정 후 계산 과정을 거치는 것과 달리, 시계열 컨볼루션 네트워크(TCN) 기반의 다중 출력(Multi-head) 모델을 사용하여 모든 보행 지표를 직접 추정합니다. * **입력 데이터 및 전처리:** 사용자의 키(신장) 정보와 픽셀 워치에서 수집한 50Hz 샘플링 속도의 3축 가속도계 및 3축 자이로스코프(IMU) 신호를 결합하여 입력값으로 사용합니다. * **추정 지표:** 보행 속도(Gait speed), 양발 지지 시간(Double support time)과 같은 양측성 지표와 보폭(Step length), 유각기 시간(Swing time), 입각기 시간(Stance time) 등 좌우 각각의 단측성 지표를 동시에 산출합니다. * **오차 최적화:** 서로 다른 단위를 가진 다양한 지표들의 상대적 정확도를 높이기 위해 평균 절대 백분율 오차(MAPE)를 손실 함수로 사용하여 모델을 최적화했습니다. **대규모 임상 연구 및 엄격한 검증** * **방대한 데이터셋:** 미국과 일본의 246명 참여자로부터 수집한 약 7만 개의 보행 세그먼트를 활용해 모델의 성능을 검증했습니다. * **기준 장비(Ground Truth):** 실험실 등급의 보행 분석 시스템인 'Zeno Gait Walkway'를 기준점으로 삼아 스마트워치 추정값의 정확도를 비교했습니다. * **다양한 보행 시나리오:** 6분 걷기 테스트, 빠른 걸음뿐만 아니라 무릎 보조기를 착용하여 인위적으로 비대칭 보행을 유도하는 등 실제 환경에서 발생할 수 있는 다양한 보행 패턴을 포함했습니다. * **교차 검증:** 데이터 누수를 방지하기 위해 특정 참가자의 데이터가 훈련과 테스트에 동시에 포함되지 않도록 5-겹 교차 검증(5-fold cross-validation) 전략을 채택했습니다. **주요 연구 결과 및 성능 분석** * **높은 신뢰도 및 타당성:** 보행 속도, 보폭, 유각기/입각기 시간 등 주요 지표에서 피어슨 상관계수(r)와 내적 상관계수(ICC) 모두 0.80 이상의 우수한 수치를 기록했습니다. * **스마트폰과의 성능 비교:** 스마트폰을 앞뒤 주머니에 넣었을 때의 결과와 비교했을 때, 모든 보행 지표에서 통계적으로 유의미한 차이가 없음을 확인했습니다(p > 0.05). * **양발 지지 시간 측정:** 추적이 까다로운 양발 지지 시간 지표에서도 0.56~0.60의 수용 가능한 신뢰도를 보이며, 손목 기기만으로도 복합적인 보행 분석이 가능함을 보여주었습니다. 이 연구 결과는 스마트워치가 신경계 질환이나 근골격계 상태의 진행 상황을 모니터링하는 데 있어 스마트폰보다 더 실용적이고 일관된 플랫폼이 될 수 있음을 시사합니다. 일상적인 활동 중에도 정확한 보행 데이터를 수집할 수 있으므로, 의료진과 사용자는 임상 방문 사이의 공백 기간 동안 발생하는 건강 변화를 더욱 정밀하게 파악할 수 있을 것입니다.

“함께 구매하면 좋은 상품” 추천 모델 고도화 | 우아한형제들 기술블로그 (새 탭에서 열림)

배달의민족은 장보기·쇼핑 서비스에서 고객의 구매 의도를 더욱 정확하게 파악하기 위해 기존의 단순 임베딩 유사도 기반 추천에서 벗어나 구매 맥락을 반영한 2단계 추천 모델로 고도화했습니다. 기존 모델의 한계였던 대체재 편향 문제와 시퀀스 정보의 부재를 해결하기 위해 그래프 기반 임베딩과 트랜스포머(Transformer) 아키텍처를 결합한 것이 핵심입니다. 이를 통해 고객이 장바구니에 담은 상품들의 순서와 관계를 학습하여, 단순 유사 상품이 아닌 실제 함께 구매할 가능성이 높은 보완재 중심의 추천 성과를 거두었습니다. ### 기존 Item2Vec 모델의 한계와 문제점 * **대체재 편향 발생**: 기존 모델은 주문 내 동시 출현 빈도를 기반으로 임베딩을 생성하여, 비슷한 구매 패턴을 가진 상품들이 가깝게 배치되었습니다. 이로 인해 우유를 담았을 때 시리얼 같은 보완재 대신 다른 브랜드의 우유가 추천되는 등 추천의 다양성이 떨어졌습니다. * **시퀀스 맥락 소실**: 상품을 장바구니에 담는 순서에는 고객의 의도가 담겨 있지만, 기존 방식은 단순히 '함께 있었다'는 정보만 활용했습니다. 예를 들어 '라면을 담고 고기를 추가한 경우'와 '고기를 담고 라면을 추가한 경우'의 차이를 구분하지 못해 정교한 추천이 어려웠습니다. * **크로스 셀링의 어려움**: 임베딩 유사도에만 의존하다 보니 동일 카테고리 내의 상품 추천에 치중하게 되었고, 장바구니 추천의 핵심 목표인 '다른 카테고리 상품 제안(Cross-selling)'을 달성하기에 한계가 있었습니다. ### Stage 1: 그래프 기반 상품 및 카테고리 임베딩 * **Node2Vec 도입**: 주문 빈도가 낮은 롱테일 상품의 데이터 희소성 문제를 해결하기 위해 Node2Vec을 활용했습니다. 이는 그래프 구조에서 Random Walk를 통해 상품 간의 구조적 관계를 효과적으로 학습하게 해줍니다. * **그래프 구조 설계**: 상품 노드와 카테고리 노드를 함께 구성했습니다. 특히 상품 간 연결(Edge)에는 단순 빈도가 아닌 '연관 규칙(Association Rule)' 기반의 가중치를 부여하여, 인기 상품에만 편중되지 않고 실제 연관성이 높은 상품들이 강하게 연결되도록 했습니다. * **콜드 스타트 방안**: 신규 상품이나 주문 이력이 적은 상품은 카테고리 노드와의 연결을 통해 초기 임베딩을 확보할 수 있도록 설계하여 시스템의 견고함을 높였습니다. ### Stage 2: Transformer 기반 시퀀스 추천 * **맥락 이해**: Stage 1에서 생성된 고품질의 임베딩을 입력값으로 사용하여, 트랜스포머 모델이 장바구니에 담긴 상품들의 순서(Sequence)를 분석합니다. * **다음 상품 예측(Next Item Prediction)**: 고객이 현재 장바구니에 담은 일련의 상품 리스트를 바탕으로, 다음에 담을 가능성이 가장 높은 상품을 예측하는 방식으로 학습을 진행했습니다. * **동적 추천 성능**: 이 과정을 통해 고객이 요리를 위해 재료를 담는 과정인지, 혹은 간식거리를 쇼핑하는 중인지 등의 실시간 맥락을 반영한 개인화된 추천이 가능해졌습니다. 단순히 "어떤 상품과 어떤 상품이 자주 팔리는가"를 넘어 "어떤 순서로 구매 결정이 이루어지는가"를 모델링하는 것이 추천 시스템 고도화의 핵심입니다. 그래프 임베딩을 통해 상품 간의 관계를 정의하고, 트랜스포머를 통해 고객의 시퀀스 맥락을 읽어내는 2단계 구조는 데이터 희소성 극복과 추천의 정확도라는 두 마리 토끼를 잡을 수 있는 실용적인 접근법이 될 수 있습니다.

AI로 산림의 미래 예측하기 (새 탭에서 열림)

구글 딥마인드와 구글 리서치 팀은 인공지능을 활용해 삼림 벌채 위험을 사전에 예측하는 딥러닝 모델인 '포레스트캐스트(ForestCast)'를 공개했습니다. 이 모델은 과거의 손실을 기록하는 수준을 넘어 위성 데이터와 비전 트랜스포머(Vision Transformer) 기술을 결합하여 미래의 위험 지역을 정확하게 식별해냅니다. 연구팀은 기술적 투명성을 위해 훈련 데이터와 평가 데이터를 벤치마크 데이터셋으로 공개하여 전 세계적인 삼림 보호 노력을 지원하고자 합니다. ## 기존 삼림 벌채 예측 방식의 한계 * 삼림 벌채는 경제적, 정치적, 환경적 요인이 복잡하게 얽힌 인간 중심의 프로세스이며, 이를 예측하기 위해 기존에는 도로망, 경제 지표, 정책 집행 데이터 등 특화된 지리 공간 정보를 수집해야 했습니다. * 하지만 이러한 외부 데이터는 지역별로 파편화되어 있고 일관성이 없으며, 시간이 지나면 빠르게 구식이 된다는 단점이 있어 전 지구적인 확장이 어려웠습니다. ## 위성 데이터 기반의 순수 모델링 접근법 * 포레스트캐스트는 외부 변수 없이 Landsat 및 Sentinel 2 위성에서 얻은 '순수 위성 데이터'만을 입력값으로 사용합니다. * 특히 '변화 이력(Change history)'이라는 개념을 도입하여, 각 픽셀의 과거 벌채 여부와 시점을 데이터화해 모델에 제공합니다. * 이 방식은 위성 데이터의 연속성 덕분에 전 세계 어디에나 동일하게 적용할 수 있고, 미래에도 지속적으로 업데이트가 가능한 '미래 보장형(Future-proof)' 모델입니다. ## 비전 트랜스포머를 활용한 기술적 혁신 * 풍경의 공간적 맥락과 최근의 벌채 경향을 파악하기 위해 전체 이미지 타일(Tile)을 한 번에 처리하는 커스텀 비전 트랜스포머 모델을 설계했습니다. * 연구 결과, 도로 지도와 같은 특정 데이터를 사용한 기존 모델보다 정확도가 높거나 대등한 수준의 성능을 보였으며, 타일 내에서 다음에 벌채될 가능성이 높은 픽셀을 정교하게 예측해냈습니다. * 흥미롭게도 '변화 이력' 데이터가 가장 중요한 입력값으로 작용했는데, 이는 해당 데이터가 최근 벌채 속도의 변화와 이동하는 벌채 전선(Deforestation fronts)에 대한 고밀도 정보를 포함하고 있기 때문입니다. ## 글로벌 확장을 위한 벤치마크 공개 * 연구팀은 모델의 투명성과 재현성을 보장하기 위해 동남아시아 지역을 대상으로 한 훈련 및 평가 데이터를 공개 벤치마크 데이터셋으로 배포했습니다. * 이 데이터셋은 머신러닝 커뮤니티가 모델의 예측 원리를 분석하고 성능을 개선하는 데 활용될 수 있습니다. * 향후 라틴 아메리카와 아프리카의 열대림은 물론, 산불이나 가축 방목 등 다른 동인에 의해 숲이 사라지는 온대 및 냉대 지역으로까지 모델 적용 범위를 확장할 계획입니다. 전 지구적 온실가스 배출의 약 10%가 토지 이용 변화에서 발생하는 만큼, 이러한 AI 기반 예측 기술은 기후 위기 대응과 생물 다양성 보존을 위한 실질적인 조기 경보 시스템으로 기능할 수 있을 것입니다.

DeepSomatic으로 종양 (새 탭에서 열림)

DeepSomatic은 구글 리서치가 개발한 AI 기반 도구로, 암 세포에서 발생하는 후천적 유전 변이(체세포 변이)를 정밀하게 식별하여 맞춤형 암 치료를 지원합니다. 기존 방식보다 높은 정확도를 자랑하는 이 모델은 합성곱 신경망(CNN)을 활용해 다양한 시퀀싱 플랫폼과 샘플 유형에 유연하게 대응할 수 있도록 설계되었습니다. 연구팀은 이 도구와 고품질 학습 데이터셋을 오픈소스로 공개하여 정밀 의료 및 암 연구의 가속화를 도모하고 있습니다. ### 체세포 변이 식별의 기술적 난제 * 암은 DNA 복제 오류나 환경적 요인으로 인해 출생 후 발생하는 '체세포 변이(Somatic variants)'에 의해 유발되며, 이는 종양의 발생과 전이를 주도합니다. * 모든 세포에 존재하는 부모로부터 물려받은 '생식세포 변이(Germline variants)'와 달리, 체세포 변이는 종양 내 특정 세포군에서만 서로 다른 빈도로 나타나기 때문에 식별이 매우 어렵습니다. * 특히 시퀀싱 과정에서 발생하는 미세한 기계적 오류율이 실제 체세포 변이의 발생률보다 높을 수 있어, 단순 노이즈와 실제 암 유발 변이를 정확히 구분하는 기술이 필수적입니다. ### 합성곱 신경망(CNN) 기반의 이미지 분석 기법 * DeepSomatic은 유전체 시퀀싱 데이터를 이미지 형태로 변환하여 분석하며, 이는 구글의 기존 도구인 DeepVariant의 메커니즘을 발전시킨 방식입니다. * 변환된 이미지는 염색체 정렬 상태, 시퀀싱 품질 등 다양한 변수를 시각화하여 포함하며, CNN 모델이 이 이미지를 학습하여 패턴을 인식합니다. * 모델은 참조 유전체(Reference genome), 개인의 고유한 생식세포 변이, 그리고 암으로 인한 체세포 변이를 삼차원적으로 비교 분석하여 시퀀싱 오류를 효과적으로 걸러내고 실제 변이 목록을 도출합니다. ### 다양한 임상 환경에 최적화된 분석 모드 * 종양 세포와 정상 세포를 함께 분석하는 '쌍체 모드(Paired mode)'를 통해 변이의 기원을 명확히 판별할 수 있습니다. * 정상 세포를 확보하기 어려운 혈액암(백혈병 등)과 같은 상황을 위해, 종양 데이터만으로 변이를 찾는 '종양 전용 모드(Tumor-only mode)'도 지원하여 활용도를 높였습니다. * 모든 주요 시퀀싱 플랫폼 데이터와 호환되며, 학습 과정에서 다루지 않은 새로운 암 종류에 대해서도 뛰어난 일반화 성능과 정확도를 보여줍니다. DeepSomatic은 암의 복잡한 유전적 특성을 파악하는 데 강력한 분석력을 제공하며, 특히 희귀하거나 미세한 변이를 찾아내는 데 탁월한 성능을 발휘합니다. 연구자와 임상의는 오픈소스로 공개된 이 도구와 CASTLE 데이터셋을 활용해 환자 개개인의 암 특성에 최적화된 맞춤형 치료 전략을 수립함으로써 정밀 의료의 실현을 앞당길 수 있을 것으로 기대됩니다.

NucleoBench와 AdaBeam). (새 탭에서 열림)

Google Research와 Move37 Labs는 핵산(DNA/RNA) 서열 설계를 위한 표준화된 벤치마크인 ‘NucleoBench’와 새로운 최적화 알고리즘인 ‘AdaBeam’을 공개했습니다. 이 연구는 방대한 유전체 서열 탐색 공간에서 최적의 치료용 분자를 설계하기 위한 기존 알고리즘의 한계를 극복하고, 16가지 생물학적 과제 중 11개에서 기존 방식보다 뛰어난 성능을 입증했습니다. 특히 AdaBeam은 긴 서열과 복잡한 예측 모델에 최적화된 확장성을 보여주며 신약 개발 과정의 시간과 비용을 획기적으로 줄일 수 있는 가능성을 제시했습니다. ### 핵산 서열 설계의 복잡성과 최적화의 난제 * **방대한 탐색 공간**: 특정 기능을 가진 RNA 분자의 5' UTR 영역 하나만 해도 가능한 서열 조합이 $2 \times 10^{120}$개 이상으로, 단순한 무작위 탐색(Brute-force)으로는 최적의 서열을 찾는 것이 불가능합니다. * **설계 알고리즘의 병목 현상**: 최근 서열의 특성을 예측하는 AI 모델은 크게 발전했으나, 이 모델을 활용해 실제 최적의 서열을 생성해내는 '설계 알고리즘'에 대한 표준화된 평가 지표는 부족한 상황이었습니다. * **기존 방식의 한계**: 유전 알고리즘이나 시뮬레이티드 어닐링(Simulated Annealing) 같은 기존의 '그래디언트 프리(Gradient-free)' 방식은 최신 딥러닝 모델 내부의 유용한 정보(그래디언트)를 활용하지 못한다는 단점이 있습니다. ### NucleoBench: 대규모 표준 벤치마크 프레임워크 * **비교 평가의 표준화**: 16가지의 서로 다른 생물학적 도전 과제에 대해 9개의 알고리즘을 동일한 시작 서열과 조건에서 테스트하여 400,000회 이상의 실험을 수행했습니다. * **다양한 과제 범위**: 특정 세포 유형(간, 신경 세포 등)에서의 유전자 발현 제어, 전사 인자 결합 최적화, 염색질 접근성 개선, Enformer와 같은 대규모 모델을 이용한 장거리 DNA 서열 예측 등이 포함됩니다. * **알고리즘 분류**: AI 모델을 블랙박스로 취급하는 '그래디언트 프리' 방식과 신경망 내부의 개선 방향(그래디언트)을 지능적으로 추적하는 '그래디언트 기반' 방식을 체계적으로 비교 분석했습니다. ### AdaBeam: 적응형 빔 서치 기반의 하이브리드 알고리즘 * **성능 우위**: NucleoBench에서 수행된 16가지 과제 중 11가지에서 기존의 최첨단 알고리즘(FastSeqProp, Ledidi 등)을 능가하는 성적을 거두었습니다. * **탁월한 확장성**: 서열의 길이가 길어지거나 예측 모델의 크기가 커질수록 성능 차이가 더욱 두드러지며, 특히 긴 DNA 서열을 다루는 복잡한 생물학적 모델에서 높은 효율성을 보입니다. * **하이브리드 접근**: 그래디언트 정보를 활용하면서도 탐색의 효율성을 극대화하는 적응형 구조를 채택하여, 모델의 예측 정확도를 최대한 활용하면서도 계산 비용을 최적화했습니다. ### 실용적인 시사점 연구진은 AdaBeam 알고리즘과 NucleoBench 프레임워크를 오픈소스로 공개하여 누구나 활용할 수 있도록 했습니다. 더 정교한 CRISPR 유전자 치료제나 안정성이 높은 mRNA 백신을 설계하려는 연구자들은 이 도구들을 통해 자신의 예측 모델에 가장 적합한 설계 알고리즘을 선택하고, 실제 실험(Wet lab) 이전에 계산적으로 검증된 최적의 후보 서열을 도출함으로써 연구의 성공률을 높일 수 있습니다.

DeepPolisher를 통한 (새 탭에서 열림)

구글 리서치와 UC 산타크루즈 게놈 연구소가 공동 개발한 DeepPolisher는 게놈 조립 과정에서 발생하는 염기 서열 오류를 정밀하게 수정하여 유전체 연구의 정확도를 획기적으로 높이는 딥러닝 도구입니다. 트랜스포머(Transformer) 아키텍처를 기반으로 설계된 이 기술은 기존 방식 대비 전체 오류의 50%, 특히 유전자 식별에 치명적인 삽입 및 삭제(indel) 오류를 70%까지 줄이는 성과를 거두었습니다. 이를 통해 연구자들은 질병 진단과 유전적 변이 분석의 신뢰성을 확보하고 보다 완벽에 가까운 참조 게놈(Reference Genome)을 구축할 수 있게 되었습니다. ## 게놈 조립의 과제와 인델 오류의 영향 * 유전체는 약 30억 개의 염기(A, T, G, C)로 구성되어 있어, 아주 낮은 오류율이라도 전체 게놈에서는 방대한 수의 데이터 결함으로 이어집니다. * 특히 염기가 추가되거나 빠지는 삽입 및 삭제(indel) 오류는 단백질 코딩 서열을 왜곡하여 유전자를 정확히 식별하거나 질병의 원인이 되는 변이를 찾는 과정을 방해합니다. * 유전체 지도를 완성하기 위해서는 동일한 게놈을 여러 번 시퀀싱하여 반복적으로 오류를 수정하는 과정이 필요하지만, 기존의 보정 기술로는 완벽한 정확도에 도달하는 데 한계가 있었습니다. ## 시퀀싱 기술의 발전과 DeepPolisher의 등장 배경 * 과거 Illumina의 숏리드(Short-read) 방식은 정확도는 높으나 길이가 짧아 복잡한 게놈 구조를 파악하기 어려웠고, PacBio의 롱리드(Long-read) 방식은 초기 오류율이 높다는 단점이 있었습니다. * 구글과 PacBio는 협력을 통해 오류율을 0.1% 미만으로 낮춘 DeepConsensus 기술을 개발했으나, 참조 게놈급의 고정밀 지도를 만들기 위해서는 여러 DNA 분자 정보를 통합해 남은 오류를 잡아낼 추가 도구가 필요했습니다. * DeepPolisher는 이러한 배경에서 탄생했으며, 다수의 시퀀싱 리드(reads)를 동시에 분석하여 조립된 게놈의 미세한 결함을 찾아내고 수정하는 최종 폴리싱 역할을 수행합니다. ## 트랜스포머 아키텍처와 학습 데이터 * DeepPolisher는 언어 모델에서 성능이 검증된 트랜스포머 신경망 아키텍처를 채택하여 서열 데이터 내의 복잡한 패턴을 학습합니다. * 모델 학습에는 NIST(미국 국립표준기술연구소)와 NHGRI가 정밀하게 분석하여 정확도가 99.99999%에 달하는 인간 세포주 게놈 데이터를 사용했습니다. * 입력 데이터로 시퀀싱된 염기 정보, 데이터의 품질 점수(Quality score), 그리고 각 리드가 조립된 게놈에 정렬된 형태를 활용하여 실제 유전적 변이와 기계적 노이즈를 정확히 구분해냅니다. DeepPolisher는 현재 오픈 소스로 공개되어 있으며, 휴먼 판게놈 참조 게놈(Human Pangenome Reference) 구축과 같은 최첨단 유전체 프로젝트에서 핵심적인 역할을 수행하고 있습니다. 정밀한 유전체 분석이 필요한 연구팀은 이 도구를 통해 데이터의 신뢰성을 극대화할 수 있을 것입니다.

웨어러블 기기와 (새 탭에서 열림)

구글 리서치(Google Research)는 웨어러블 기기 데이터와 일반적인 혈액 검사 지표를 결합해 제2형 당뇨병의 전조 증상인 인슐린 저항성(IR)을 높은 정확도로 예측하는 머신러닝 모델을 개발했습니다. 이 연구는 침습적이고 비용이 많이 드는 기존 검사 방식을 대체할 수 있는 확장 가능한 조기 선별 도구를 제시하며, 고위험군을 대상으로 한 예방적 치료의 가능성을 열었습니다. 특히 Gemini 모델 기반의 AI 에이전트를 도입하여 사용자가 자신의 상태를 쉽게 이해하고 맞춤형 건강 관리를 실천할 수 있도록 지원하는 통합적인 접근 방식을 제안합니다. **디지털 바이오마커와 혈액 지표의 결합 (WEAR-ME 연구)** * 미국 전역의 1,165명의 참가자를 대상으로 웨어러블 기기(Fitbit, Google Pixel Watch)와 퀘스트 다이아노스틱스(Quest Diagnostics)의 혈액 검사 데이터를 수집하는 WEAR-ME 연구를 진행했습니다. * 데이터는 안정 시 심박수, 걸음 수, 수면 패턴과 같은 웨어러블 지표와 공복 혈당, 지질 패널(Lipid panel) 등 루틴한 혈액 검사 결과, 인구통계학적 정보를 포함합니다. * 심층 신경망(Deep Neural Network)을 활용해 인슐린 저항성의 표준 지표인 HOMA-IR 점수를 예측하도록 모델을 학습시켰습니다. **모델 성능 및 데이터 소스별 기여도** * 단일 데이터 소스보다 여러 스트림을 결합했을 때 예측 정확도(auROC)가 유의미하게 향상되는 결과를 보였습니다. * 웨어러블 데이터와 인구통계 정보만 사용했을 때 0.70이었던 auROC는 공복 혈당 데이터를 추가하자 0.78로 상승했습니다. * 웨어러블, 인구통계, 공복 혈당에 지질 패널을 포함한 전체 혈액 검사 데이터를 모두 결합했을 때 가장 높은 성능인 0.82(독립 검증 코호트에서 0.81)를 달성했습니다. **고위험군 대상의 효용성 및 검증** * 이 모델은 특히 비만이거나 신체 활동량이 적은 정적인 생활 방식을 가진 고위험군에서 강력한 예측 성능을 보였습니다. * 72명의 독립적인 검증 코호트에서도 일관되게 높은 성능을 유지함으로써 모델의 일반화 가능성을 입증했습니다. * 이는 고비용의 특수 인슐린 검사 없이도 일상적인 데이터와 정기 검진 결과만으로 당뇨 위험을 조기에 포착할 수 있음을 의미합니다. **Gemini 기반 인슐린 저항성 교육 에이전트** * 단순한 수치 예측을 넘어, 최신 거대언어모델(LLM)인 Gemini를 활용한 '인슐린 저항성 이해 및 교육 에이전트(IR Agent)' 프로토타입을 구축했습니다. * 이 에이전트는 사용자가 모델의 예측 결과를 쉽게 해석할 수 있도록 돕고, 인슐린 저항성에 대한 문해력을 높여줍니다. * 분석된 데이터를 바탕으로 안전하고 개인화된 건강 관리 권장 사항을 제공하여 실질적인 생활 습관 개선을 유도합니다. 이 기술은 증상이 나타나기 전 단계에서 인슐린 저항성을 발견함으로써 제2형 당뇨병으로의 진행을 늦추거나 예방할 수 있는 강력한 도구가 될 수 있습니다. 현재는 연구 및 정보 제공 목적으로 개발되었으나, 향후 의료 현장에서 데이터 기반의 정밀한 조기 진단 보조 도구로 활용될 것으로 기대됩니다.

소비자용 초 (새 탭에서 열림)

구글 리서치는 스마트폰에 이미 탑재된 초광대역(UWB) 레이더 기술과 전이 학습(Transfer Learning)을 활용해 비접촉식으로 심박수를 측정할 수 있는 새로운 기술을 공개했습니다. 기존의 주파수 변조 연속파(FMCW) 레이더 데이터로 학습된 딥러닝 모델의 지식을 UWB 시스템에 성공적으로 이식함으로써, 별도의 추가 하드웨어 없이도 일상적인 모바일 기기에서 정밀한 건강 모니터링이 가능함을 입증했습니다. 이 기술은 호흡이나 몸의 움직임 속에서도 심장의 미세한 진동을 정확히 포착하여 개인용 헬스케어의 새로운 지평을 열 것으로 기대됩니다. **UWB 레이더를 활용한 생체 신호 감지** * UWB는 현재 스마트폰에서 주로 정밀 위치 찾기나 디지털 키 등에 사용되지만, 고유의 레이더 성능을 활용하면 심박수와 같은 활력 징후 측정이 가능합니다. * 구글은 기존 Nest Hub의 'Soli' 레이더(FMCW 방식)를 통해 축적한 방대한 데이터와 알고리즘을 UWB 환경에 적용하는 연구를 진행했습니다. * UWB는 짧은 펄스를 사용하여 거리를 측정하므로, 연속파를 사용하는 FMCW와 물리적 원리는 다르지만 딥러닝을 통해 학습된 특징(Feature)을 공유할 수 있습니다. **비접촉 측정의 한계와 시공간적 해결책** * 심박으로 인한 흉벽의 미세한 움직임은 호흡이나 일반적인 신체 움직임에 비해 매우 작아 노이즈에 묻히기 쉽습니다. * 이를 해결하기 위해 레이더의 3차원 공간 해상도를 활용하여 신체 주변에 정밀한 '측정 구역'을 설정하고 배경 노이즈를 차단합니다. * 동시에 최대 200Hz의 높은 시간 해상도로 신호를 샘플링하여 심장 박동의 빠르고 미세한 시간적 변화를 포착합니다. **딥러닝 모델 아키텍처 및 전이 학습** * 입력 데이터의 시간과 공간 축을 동시에 분석하기 위해 2D ResNet 구조를 사용하여 미세한 시공간 패턴을 추출합니다. * 이후 평균 풀링(Average Pooling)을 거쳐 공간 차원을 축소하고, 1D ResNet을 통해 시간적 차원에서 심박의 주기적 패턴을 식별합니다. * FMCW 데이터셋(980시간 분량)으로 사전 학습된 이 모델은 평균 절대 오차(MAE) 0.85 bpm을 기록하며 기존 기술 대비 오차율을 절반 수준으로 줄였습니다. * 상대적으로 적은 분량(37.3시간)의 UWB 데이터셋에서도 전이 학습을 통해 스마트폰을 책상이나 무릎에 두는 실제 환경에서 높은 정확도를 보여주었습니다. 이 연구는 추가적인 센서 부착 없이도 우리가 매일 사용하는 스마트폰만으로 고정밀 생체 신호 모니터링이 가능하다는 점을 시사합니다. 향후 웨어러블 기기의 불편함 없이 수면 중이나 명상 시, 혹은 일상적인 스마트폰 사용 중에도 실시간 건강 관리가 가능해지는 기술적 토대가 될 것입니다.

M-REGLE과 멀티 (새 탭에서 열림)

Google Research에서 발표한 M-REGLE(Multimodal REpresentation learning for Genetic discovery on Low-dimensional Embeddings)은 심전도(ECG)와 광혈류측정(PPG) 등 다양한 건강 데이터를 통합 분석하여 질병의 유전적 원인을 밝혀내는 인공지능 프레임워크입니다. 이 모델은 여러 데이터 스트림을 결합해 하나의 잠재적 '서명'을 학습함으로써 기존 단일 모달리티 분석보다 더 풍부한 생물학적 신호를 포착하고 데이터 노이즈를 효과적으로 줄입니다. 결과적으로 M-REGLE은 유전적 연관성 발견 효율을 극대화하고 심혈관 질환 예측 성능을 획기적으로 향상시켰습니다. ### M-REGLE의 작동 원리와 다중 모달리티 통합 * **통합 학습 구조**: 기존의 U-REGLE이 각 데이터를 개별적으로 분석한 것과 달리, M-REGLE은 12유도 ECG의 각 리드나 ECG와 PPG 데이터를 분석 전 단계에서 결합하여 공동 학습합니다. * **CVAE 및 PCA 활용**: 합성곱 변이형 오토인코더(CVAE)를 사용하여 복잡한 파형 데이터를 저차원의 잠재 인자(latent factors)로 압축하며, 이후 주성분 분석(PCA)을 적용해 각 인자 간의 독립성을 확보합니다. * **GWAS 연계**: 추출된 독립적 인자들을 전장 유전체 연관 분석(GWAS)과 결합하여, 특정 생리적 신호와 연관된 유전적 변이를 통계적으로 정밀하게 찾아냅니다. ### 데이터 표현력 및 해석 가능성 강화 * **재구성 오류 감소**: M-REGLE은 단일 모달리티 모델 대비 데이터 재구성 오류를 대폭 줄였으며, 특히 12유도 ECG 분석에서 오류를 약 72.5% 감소시켜 원본 파형의 핵심 정보를 더 정확하게 보존함을 입증했습니다. * **잠재 임베딩의 시각화**: 생성형 AI의 특성을 활용해 특정 임베딩 좌표를 변경할 때 재구성되는 파형(예: T파의 변화, 심박수 등)이 어떻게 변하는지 확인하여 모델의 판단 근거를 시각적으로 해석할 수 있습니다. * **질병 식별 지표**: 심방세동(AFib) 환자와 정상인을 구분하는 데 결정적인 역할을 하는 특정 임베딩 좌표(4번, 6번, 10번 등)를 식별하여 임상적 유용성을 더했습니다. ### 유전적 발견 성과 및 질병 예측 성능 * **발견 효율 극대화**: M-REGLE은 ECG와 PPG 통합 분석을 통해 총 773개의 고유한 유전적 위치(loci)를 발견했습니다. 이는 단일 유도 ECG 분석보다 4.3배, 개별 분석 후 통합하는 방식(U-REGLE)보다 2.6배 더 많은 수치입니다. * **다유전자 위험 점수(PRS) 개선**: M-REGLE을 통해 도출된 유전적 지표는 기존의 전문가 설계 특징(심박수 등)이나 단일 모달리티 모델보다 질병 예측 성능이 뛰어났습니다. * **임상적 검증**: UK 바이오뱅크 데이터를 활용한 검증 결과, 심방세동 및 심부전과 같은 주요 심혈관 질환의 발병 위험을 예측하는 데 있어 가장 높은 정확도를 기록했습니다. --- M-REGLE은 스마트워치와 같은 웨어러블 기기에서 생성되는 PPG 데이터와 병원의 전문적인 ECG 데이터를 결합함으로써, 일상과 임상을 잇는 강력한 질병 예측 도구가 될 수 있습니다. 향후 다양한 장기 시스템의 멀티모달 데이터에 이 방식을 적용한다면, 복합 질환의 유전적 메커니즘을 규명하고 환자 맞춤형 정밀 의료를 실현하는 데 핵심적인 역할을 할 것으로 기대됩니다.

LLM을 통한 쿠팡의 (새 탭에서 열림)

쿠팡은 검색, 광고, 물류 등 서비스 전반에 걸쳐 머신러닝(ML) 기술을 적극적으로 활용하고 있으며, 최근에는 대규모 언어 모델(LLM)을 도입해 AI 혁신을 가속화하고 있습니다. LLM은 다국어 환경과 방대한 상품 데이터를 처리하는 데 탁월한 성능을 보이며, 효율적인 모델 학습과 추론을 위한 플랫폼 인프라의 최적화가 이 과정의 핵심 동력이 되고 있습니다. 쿠팡은 이를 통해 고객 경험을 개선하고 운영 효율성을 극대화하는 성과를 거두고 있습니다. **쿠팡의 머신러닝 활용 영역** * **추천 시스템:** 사용자 클릭, 구매 이력, 장바구니 담기 등 대규모 상호작용 데이터와 사람이 직접 라벨링한 관련성 판단 지표를 기반으로 홈 피드, 검색, 광고의 개인화를 구현합니다. * **콘텐츠 이해:** 상품 카탈로그(텍스트, 이미지), 사용자 리뷰, 검색어 등 방대한 데이터를 딥러닝으로 분석해 상품과 고객에 대한 표현(Representation)을 학습하고 이를 쇼핑 경험 개선에 활용합니다. * **예측 모델링:** 100개 이상의 물류 센터(FC) 내 수백만 개 상품에 대한 수요, 가격, 배송 경로를 예측하며, 기존 통계적 기법에 딥러닝 기술을 점진적으로 결합하고 있습니다. **멀티모달 기반의 이미지 및 언어 이해** * **Vision-Language Transformer:** 이미지와 텍스트 데이터를 별개로 처리하던 기존 방식에서 벗어나, 두 데이터를 동시에 모델링하는 트랜스포머 모델을 통해 더욱 정교한 임베딩(Embedding)을 생성합니다. * **검색 및 추천 고도화:** 생성된 임베딩은 광고 검색, 유사 상품 찾기 및 추천 모델의 핵심 피처로 활용되어 사용자에게 더 적합한 결과를 제공합니다. * **다양한 서비스 적용:** 한국어와 대만어 간의 상품명 번역, 쇼핑 피드 이미지 품질 개선, 사용자 리뷰 요약, 상품 및 판매자 키워드 자동 생성 등 다양한 영역에서 대규모 모델이 성공적으로 적용되었습니다. **데이터 레이블링 및 속성 추출 혁신** * **대규모 약지도 학습(Weak Label) 생성:** 사람이 직접 수행하기에 비용과 시간이 많이 드는 다국어(한국어, 영어, 중국어 등) 레이블링 작업을 LLM이 수행하여, 모델 학습을 위한 기초 데이터를 대규모로 확보합니다. * **데이터 부족 문제 해결:** 학습 데이터가 부족한 새로운 카테고리나 세그먼트에서 LLM이 생성한 레이블을 통해 모델의 성능을 빠르게 안정화하고 관련성 모델의 품질을 높입니다. * **통합 모델링으로의 전환:** 과거에는 상품 카테고리별로 개별 ML 모델을 구축해야 했으나, 이제는 통합된 LLM을 통해 상품 분류 및 속성 추출 프로세스를 간소화하고 효율성을 높이고 있습니다. 쿠팡은 LLM을 단순한 기술 도입을 넘어 인프라 최적화와 결합하여 실제 비즈니스 가치를 창출하는 핵심 도구로 활용하고 있습니다. 특히 다국어 지원과 대규모 데이터 처리가 필수적인 글로벌 이커머스 환경에서, LLM 기반의 플랫폼 전략은 향후 AI 경쟁력을 좌우하는 중요한 기반이 될 것입니다.