whisper

2 개의 포스트

Mobius Labs의 Aana 모델을 (새 탭에서 열림)

Dropbox는 최근 인수한 Mobius Labs의 멀티모달 AI 모델 'Aana'를 지능형 비서인 Dropbox Dash에 통합하여, 텍스트를 넘어 이미지와 비디오, 오디오를 깊이 있게 이해하는 검색 환경을 구축하고 있습니다. Aana는 기존 방식보다 훨씬 적은 연산 자원을 사용하면서도 다양한 미디어 간의 복잡한 관계를 분석하여, 사용자가 방대한 양의 멀티모달 콘텐츠에서 필요한 정보를 자연어 검색만으로 즉시 찾아낼 수 있게 돕습니다. 이를 통해 파편화된 미디어 데이터는 연결된 지식 자산으로 전환되며, 창의적인 협업과 업무 효율성을 극대화하는 기반이 마련되었습니다. **확장성을 고려한 멀티모달 분석 엔진** - 비디오와 오디오는 장면 전환, 화자 변경, 화면 내 텍스트, 동작 등 정보의 층위가 복잡하여 기존에는 검색과 정리가 매우 어려웠습니다. - Aana는 텍스트, 이미지, 오디오를 개별적으로 처리하는 대신, 이들이 서로 어떻게 상호작용하며 의미를 형성하는지 분석하는 통합적 접근 방식을 취합니다. - 모든 분석 정보는 '공유 벡터 공간(Shared Vector Space)'으로 변환되어, "발표자가 API 흐름을 설명하는 부분"과 같은 구체적인 맥락 기반의 검색을 가능하게 합니다. **효율적인 추론을 위한 기술적 아키텍처** - 오디오 분석에는 Whisper를 최적화한 `faster-whisper-large-v3-turbo` 모델을 사용하며, 시각 및 언어 시스템에는 트랜스포머 기반의 MoE(Mixture-of-Experts) 아키텍처를 적용했습니다. - **HQQ(High Quality Quantization) 시스템:** 4비트 및 8비트 저비트 추론을 지원하여 대규모 데이터 처리 시 발생하는 컴퓨팅 비용과 메모리 요구량을 획기적으로 낮췄습니다. - **Gemlite 기술:** 커스텀 GPU 커널을 통해 행렬 곱셈과 어텐션 레이어 같은 핵심 AI 연산을 가속화합니다. - **Aana SDK:** 모델 조정, 배치 처리, GPU 활용 최적화를 관리하는 유연한 프레임워크를 제공하여 복잡한 멀티모달 워크플로우를 효율적으로 배포할 수 있도록 지원합니다. **미디어 데이터를 지식으로 전환하는 미래 가치** - 전통적인 아키텍처의 극히 일부에 불과한 컴퓨팅 자원만으로도 엑사바이트(exabytes)급의 방대한 데이터를 분석할 수 있는 경제성을 확보했습니다. - 단순 검색을 넘어 회의 요약, 특정 시각적 모티프 탐색 등 멀티모달 데이터를 해석하고 자동으로 통찰을 제공하는 '에이전틱 워크플로우(Agentic workflows)'의 기반이 됩니다. - 마케팅, 크리에이티브, 기술 팀은 수년 치의 미디어 아카이브를 수동으로 뒤지는 대신, AI를 통해 즉각적인 답변을 얻고 아이디어를 실행에 옮길 수 있습니다. Dropbox Dash와 Aana의 결합은 사용자가 콘텐츠의 형식이나 위치에 구애받지 않고 업무의 맥락에 집중할 수 있게 합니다. 특히 영상 속 특정 장면을 찾기 위해 타임라인을 일일이 훑어야 했던 수고를 덜어줌으로써, 미디어 집약적인 업무를 수행하는 전문가들에게 실질적인 생산성 향상을 제공할 것으로 기대됩니다.

LLM 표현을 통한 인간 뇌 (새 탭에서 열림)

거대 언어 모델(LLM)의 문맥적 임베딩이 실제 대화 중인 인간의 뇌 신경 활동과 선형적으로 정렬된다는 연구 결과가 발표되었습니다. 연구팀은 LLM의 내부 표현이 인간의 언어 이해 및 생성 과정을 설명하는 강력한 프레임워크가 될 수 있음을 증명했습니다. 결과적으로 이는 LLM이 단순히 성능이 뛰어난 도구를 넘어, 인간의 복잡한 언어 처리 메커니즘을 해독하는 핵심적인 열쇠로 작용할 수 있음을 시사합니다. **LLM과 인간 뇌의 언어 처리 유사성** * 기존의 심리언어학 모델은 상징적인 문법 규칙에 의존했으나, LLM은 다음 단어 예측과 강화 학습을 통해 언어의 통계적 구조를 다차원 임베딩 공간에 인코딩합니다. * 구글 리서치와 프린스턴 대학교 등 공동 연구진은 5년간의 연구를 통해 모델의 내부 표현(임베딩)과 자유로운 대화 중 발생하는 뇌 신경 활동 사이의 유사성을 탐구했습니다. * 연구 결과, 모델의 단어 수준 임베딩이 인간의 언어 중추인 브로카 영역(Broca’s area)과 상측두회(STG) 등의 활동 패턴과 긴밀하게 일치함을 확인했습니다. **Whisper 모델을 통한 신경망 분석 및 정렬** * Transformer 기반의 음성-텍스트 변환 모델인 'Whisper'를 활용해 실제 대화 중인 피험자의 뇌 신호와의 상관관계를 분석했습니다. * 분석을 위해 모델의 음성 인코더에서 추출한 '음성(Speech) 임베딩'과 디코더에서 추출한 단어 기반 '언어(Language) 임베딩'을 사용했습니다. * 두개강 내 전극(Intracranial electrodes)으로 측정된 뇌 활동 데이터에 선형 변환을 적용하여, 모델의 임베딩 값으로 뇌의 신경 신호를 예측하는 모델을 구축했습니다. **언어 이해와 생성의 신경학적 시퀀스** * **언어 이해(Comprehension):** 단어가 들릴 때 먼저 상측두회(STG)에서 음성 임베딩이 신경 활동을 예측하고, 수백 밀리초 후 브로카 영역(IFG)에서 언어 임베딩이 의미 해독 과정을 예측하는 순차적 흐름을 보입니다. * **언어 생성(Production):** 단어를 뱉기 약 500밀리초 전, 브로카 영역에서 언어 임베딩이 활동을 예측하며 발화를 계획합니다. 이후 운동 피질(MC)에서 음성 임베딩이 조음 과정을 예측하는 역순의 역동성이 관찰됩니다. * **자기 모니터링:** 발화 직후에는 자신의 목소리를 듣고 모니터링하기 위해 상측두회의 청각 영역에서 다시 한번 음성 임베딩과 신경 활동의 정렬이 나타납니다. 이 연구는 인공지능의 내부 메커니즘이 인간의 생물학적 언어 처리 과정을 모사하고 있음을 보여줍니다. 따라서 향후 뇌 기능 장애의 이해나 더 정교한 뇌-컴퓨터 인터페이스(BCI) 개발에 LLM의 임베딩 구조를 활용하는 것이 매우 효과적인 전략이 될 것입니다.