speech-to-text

4 개의 포스트

MedGemma 1.5를 (새 탭에서 열림)

구글 리서치는 의료용 생성형 AI 모델인 MedGemma의 기능을 대폭 강화한 'MedGemma 1.5 4B'와 의료 전문 음성 인식 모델 'MedASR'을 새롭게 공개했습니다. 이번 업데이트는 CT, MRI 등 고차원 의료 영상 분석과 시계열 데이터 처리 능력을 크게 향상시켜 개발자들이 보다 정밀한 의료 보조 애플리케이션을 구축할 수 있도록 돕습니다. 오픈 모델로 제공되는 이 기술들은 연구 및 상업적 목적으로 자유롭게 활용 가능하며, 의료 현장의 디지털 전환을 가속화하는 핵심 도구가 될 것으로 기대됩니다. **MedGemma 1.5의 고차원 의료 영상 처리 역량** * 기존 2차원 이미지를 넘어 CT와 MRI 같은 3차원 볼륨 데이터, 그리고 대용량 병리 조직 슬라이드(Whole-slide histopathology) 분석 기능을 새롭게 지원합니다. * 여러 장의 이미지 슬라이드나 패치를 입력값으로 받아 복합적인 추론이 가능하며, 내부 벤치마크 결과 CT 관련 질환 분류 정확도는 기존 대비 3%, MRI는 14% 향상되었습니다. * 흉부 엑스레이의 시계열 검토(Longitudinal review) 기능을 통해 환자의 과거와 현재 상태 변화를 추적하거나, 특정 해부학적 특징의 위치를 파악하는 로컬라이제이션 기능이 강화되었습니다. * 의료 실험 보고서와 같은 비정형 문서에서 구조화된 데이터를 추출하는 의료 문서 이해 능력이 개선되어 데이터 관리 효율성을 높였습니다. **의료 음성 인식 모델 MedASR과 개발 생태계** * MedASR은 의료 전문 용어와 진단 받아쓰기에 최적화된 자동 음성 인식 모델로, 의료진의 음성을 텍스트로 변환하여 MedGemma의 추론 엔진과 즉시 연동할 수 있습니다. * MedGemma 1.5 4B 모델은 오프라인에서도 실행 가능한 효율적인 크기로 설계되어, 연산 자원이 제한된 환경에서도 높은 성능을 유지하며 유연하게 배포할 수 있습니다. * 구글은 10만 달러 규모의 상금을 건 'MedGemma Impact Challenge' 해커톤을 Kaggle에서 개최하여 전 세계 개발자들이 의료 AI를 창의적으로 활용할 수 있도록 독려하고 있습니다. * 모든 모델은 Hugging Face와 Google Cloud Vertex AI를 통해 제공되어, 개발자가 자신의 유스케이스에 맞춰 모델을 미세 조정하고 대규모 애플리케이션으로 확장하기 용이합니다. 의료 AI 애플리케이션을 개발하려는 엔지니어는 MedGemma 1.5 4B를 시작점으로 삼아 로컬 환경에서 프로토타입을 구축하는 것이 효율적입니다. 특히 MedASR을 활용해 의료진의 구두 기록을 텍스트화하고 이를 MedGemma의 다중 모달 분석 기능과 결합한다면, 실시간 진단 보조 및 임상 의사 결정 지원 분야에서 강력한 경쟁력을 확보할 수 있을 것입니다.

PD1 AI 해커톤, 그 뜨거웠던 열기 속으로! (새 탭에서 열림)

PD1 해커톤 2025는 LINE 앱의 핵심 개발 조직인 PD1이 주관하여 AI 기술을 서비스에 접목할 혁신적인 아이디어를 발굴하고 기술적 가능성을 실험한 자리였습니다. 약 60명의 개발자가 참여해 48시간 동안 대화 경험 개선부터 업무 자동화까지 다양한 영역에서 AI 활용 방안을 제시하며 LINE 앱의 미래를 탐색했습니다. 이번 행사는 단순한 이벤트의 차원을 넘어 실제 서비스에 즉각 적용 가능한 수준 높은 기술적 성취를 확인했다는 점에서 큰 의미를 가집니다. **PD1 해커톤의 지향점과 조직적 배경** * LINE 앱의 iOS, Android 메신저 기능과 내부 플랫폼 개선을 담당하는 PD1 조직이 주도하여 실질적인 사용자 경험 변화를 목표로 삼았습니다. * AI 기술을 메시징, 콘텐츠, 업무 자동화에 필수적으로 도입해야 하는 산업 흐름에 발맞추어 기획되었습니다. * 혁신적인 AI 기술 확보, 일상적인 문제 해결, 그리고 내부 개발 생산성 향상이라는 세 가지 핵심 과제를 탐구했습니다. **AI 기반의 커뮤니케이션 및 콘텐츠 혁신** * **NextVoIP 팀 (VoIP x AI):** 1:1 및 그룹 통화의 음성 데이터를 실시간으로 텍스트로 변환(STT)한 뒤, AI 모델을 통해 보이스피싱 등 사고 예방, 대화 보조, 관련 콘텐츠 제안 기능을 구현했습니다. * **MELODY LINE 팀 (Music from Conversation):** 대화의 맥락과 감정을 AI로 분석하여 그 분위기에 맞는 멜로디를 자동으로 생성하는 '음악 기반 대화'라는 독특한 사용자 경험을 제시하여 최우수상을 수상했습니다. * 서비스 내 메시지 데이터를 AI로 분석해 즉석에서 해커톤 주제가를 작곡하는 등 기술과 예술을 융합한 창의적인 시도들이 돋보였습니다. **실무 직결형 AI 테스트 자동화 솔루션** * **IPD 팀 (AI 테스트 자동화 - 대상 수상):** 반복적인 QA 업무를 효율화하기 위해 AI가 테스트 케이스를 생성·관리하고, 자동 실행 및 실패 원인 분석까지 수행하는 시스템을 시연했습니다. * 현업에 즉시 투입 가능한 수준의 실용성과 완성도를 보여주었으며, 개발 이후 단계인 테스트 과정의 비용 절감 및 품질 향상 가능성을 입증했습니다. * 단순한 아이디어 제시에 그치지 않고 실제 프로젝트에 적용 가능한 구체적인 기술적 프레임워크를 선보여 참가자들의 높은 평가를 받았습니다. 이번 해커톤에서 도출된 QA 자동화나 VoIP 보안 강화와 같은 아이디어들은 실제 서비스의 안정성과 편의성을 높이는 데 중요한 이정표가 될 것입니다. 개발자들이 짧은 시간 내에 몰입하여 AI의 실용적 가치를 증명해낸 만큼, 여기서 얻은 기술적 자산들을 실제 LINE 앱 고도화 과정에 적극적으로 반영하고 지속적인 실험 환경을 구축하는 것을 추천합니다.

음원 정위 기술로 그룹 대 (새 탭에서 열림)

구글 리서치와 딥마인드가 발표한 '스피치컴퍼스(SpeechCompass)'는 다중 마이크를 활용한 음원 위치 추적 기술을 통해 모바일 자막 서비스의 가독성과 접근성을 혁신적으로 개선합니다. 기존의 실시간 자막 앱들이 여러 명의 발화 내용을 구분 없이 나열하던 한계를 극복하기 위해, 이 시스템은 소리가 들려오는 방향을 실시간으로 계산하여 발화자별로 색상과 화살표 지표를 제공합니다. 이를 통해 사용자는 복잡한 설정 없이도 그룹 대화에서 '누가, 어느 방향에서' 말하고 있는지를 직관적으로 파악할 수 있습니다. ### 기존 모바일 자막 기술의 한계와 해결책 * **인지 부하 문제:** 기존의 실시간 자막(Live Transcribe) 서비스는 모든 대화 내용을 하나의 텍스트 흐름으로 합쳐서 보여주기 때문에, 여러 명의 대화자가 섞여 있을 때 누가 어떤 말을 했는지 구분하기 어렵고 사용자의 인지적 부담이 큽니다. * **기존 방식의 제약:** 시각 정보를 활용한 발화자 분리는 카메라 시야 확보가 필요하고, 음성 특징점(Voiceprint) 기반 방식은 각 화자의 목소리를 미리 등록해야 하는 번거로움과 프라이버시 문제가 존재합니다. * **위치 기반 접근:** SpeechCompass는 대화자들이 물리적으로 서로 다른 위치에 있다는 점에 착안하여, 소리의 방향 정보를 활용해 발화자를 분리(Diarization)하고 시각적 가이드를 제공합니다. ### 다중 마이크를 이용한 실시간 음원 위치 추적 * **TDOA 알고리즘:** 각 마이크에 소리가 도달하는 시간 차이(Time-Difference of Arrival)를 이용해 소리의 도달 각도를 계산합니다. * **GCC-PHAT 적용:** 위상 변환을 이용한 일반화된 상호 상관(Generalized Cross Correlation with Phase Transform) 기법을 사용하여 소음 환경에서의 내성을 높이고 연산 속도를 최적화했습니다. * **정밀도 향상:** 커널 밀도 추정(Kernel Density Estimation)과 같은 통계적 기법을 결합하여 위치 추적의 정밀도를 높였으며, 4개의 마이크를 탑재한 전용 케이스는 360도 전 방향 감지를 지원합니다. 일반 스마트폰의 마이크 2개로도 소프트웨어 구현을 통해 180도 범위 내에서 작동이 가능합니다. ### 하드웨어 및 소프트웨어 구현의 효율성 * **저사양 최적화:** 별도의 거대 머신러닝 모델이나 가중치가 필요 없는 알고리즘 기반 방식이므로, 저전력 마이크로컨트롤러와 제한된 메모리 환경에서도 원활하게 작동합니다. * **낮은 지연 시간과 프라이버시:** 음성의 고유 특성을 추출할 필요 없이 소리의 물리적 성질만 활용하므로 실시간 처리가 가능하며, 개인 식별 정보나 비디오 데이터를 요구하지 않아 사용자 프라이버시를 강력하게 보호합니다. * **범용성:** 특정 언어에 의존하지 않는 기술이므로 전 세계 모든 언어에 즉시 적용 가능하며, 대화 장소를 옮기거나 휴대폰 위치를 바꿔도 즉각적으로 환경에 재적응합니다. ### 사용자 인터페이스와 실용성 * **시각적 분리:** 안드로이드 앱 인터페이스에서 각 발화자는 고유의 색상으로 구분되며, 대화창 옆에 표시되는 화살표 아이콘을 통해 발화자의 방향을 실시간으로 알려줍니다. * **접근성 향상:** 청각 장애인이나 난청 사용자가 그룹 대화의 흐름을 놓치지 않도록 돕고, 회의록 작성이나 다국어 번역 시에도 발화 주체를 명확히 하는 데 유용합니다. SpeechCompass는 복잡한 하드웨어나 클라우드 연산 없이도 모바일 기기 자체의 마이크 배열만으로 그룹 대화의 접근성을 획기적으로 높일 수 있음을 보여줍니다. 이 기술은 향후 다양한 모바일 접근성 도구에 통합되어, 청각 장애인뿐만 아니라 복잡한 회의 환경에서 기록이 필요한 일반 사용자들에게도 실질적인 도움을 줄 것으로 기대됩니다.

LLM 표상을 통한 인간 뇌 (새 탭에서 열림)

거대 언어 모델(LLM)의 문맥적 임베딩이 실제 대화 중인 인간의 뇌 신경 활동과 선형적으로 정렬된다는 연구 결과가 발표되었습니다. 연구팀은 LLM의 내부 표현이 인간의 언어 이해 및 생성 과정을 설명하는 강력한 프레임워크가 될 수 있음을 증명했습니다. 결과적으로 이는 LLM이 단순히 성능이 뛰어난 도구를 넘어, 인간의 복잡한 언어 처리 메커니즘을 해독하는 핵심적인 열쇠로 작용할 수 있음을 시사합니다. **LLM과 인간 뇌의 언어 처리 유사성** * 기존의 심리언어학 모델은 상징적인 문법 규칙에 의존했으나, LLM은 다음 단어 예측과 강화 학습을 통해 언어의 통계적 구조를 다차원 임베딩 공간에 인코딩합니다. * 구글 리서치와 프린스턴 대학교 등 공동 연구진은 5년간의 연구를 통해 모델의 내부 표현(임베딩)과 자유로운 대화 중 발생하는 뇌 신경 활동 사이의 유사성을 탐구했습니다. * 연구 결과, 모델의 단어 수준 임베딩이 인간의 언어 중추인 브로카 영역(Broca’s area)과 상측두회(STG) 등의 활동 패턴과 긴밀하게 일치함을 확인했습니다. **Whisper 모델을 통한 신경망 분석 및 정렬** * Transformer 기반의 음성-텍스트 변환 모델인 'Whisper'를 활용해 실제 대화 중인 피험자의 뇌 신호와의 상관관계를 분석했습니다. * 분석을 위해 모델의 음성 인코더에서 추출한 '음성(Speech) 임베딩'과 디코더에서 추출한 단어 기반 '언어(Language) 임베딩'을 사용했습니다. * 두개강 내 전극(Intracranial electrodes)으로 측정된 뇌 활동 데이터에 선형 변환을 적용하여, 모델의 임베딩 값으로 뇌의 신경 신호를 예측하는 모델을 구축했습니다. **언어 이해와 생성의 신경학적 시퀀스** * **언어 이해(Comprehension):** 단어가 들릴 때 먼저 상측두회(STG)에서 음성 임베딩이 신경 활동을 예측하고, 수백 밀리초 후 브로카 영역(IFG)에서 언어 임베딩이 의미 해독 과정을 예측하는 순차적 흐름을 보입니다. * **언어 생성(Production):** 단어를 뱉기 약 500밀리초 전, 브로카 영역에서 언어 임베딩이 활동을 예측하며 발화를 계획합니다. 이후 운동 피질(MC)에서 음성 임베딩이 조음 과정을 예측하는 역순의 역동성이 관찰됩니다. * **자기 모니터링:** 발화 직후에는 자신의 목소리를 듣고 모니터링하기 위해 상측두회의 청각 영역에서 다시 한번 음성 임베딩과 신경 활동의 정렬이 나타납니다. 이 연구는 인공지능의 내부 메커니즘이 인간의 생물학적 언어 처리 과정을 모사하고 있음을 보여줍니다. 따라서 향후 뇌 기능 장애의 이해나 더 정교한 뇌-컴퓨터 인터페이스(BCI) 개발에 LLM의 임베딩 구조를 활용하는 것이 매우 효과적인 전략이 될 것입니다.