agentic-workflows

3 개의 포스트

Mobius Labs의 Aana 모델을 (새 탭에서 열림)

Dropbox는 최근 인수한 Mobius Labs의 멀티모달 AI 모델 'Aana'를 지능형 비서인 Dropbox Dash에 통합하여, 텍스트를 넘어 이미지와 비디오, 오디오를 깊이 있게 이해하는 검색 환경을 구축하고 있습니다. Aana는 기존 방식보다 훨씬 적은 연산 자원을 사용하면서도 다양한 미디어 간의 복잡한 관계를 분석하여, 사용자가 방대한 양의 멀티모달 콘텐츠에서 필요한 정보를 자연어 검색만으로 즉시 찾아낼 수 있게 돕습니다. 이를 통해 파편화된 미디어 데이터는 연결된 지식 자산으로 전환되며, 창의적인 협업과 업무 효율성을 극대화하는 기반이 마련되었습니다. **확장성을 고려한 멀티모달 분석 엔진** - 비디오와 오디오는 장면 전환, 화자 변경, 화면 내 텍스트, 동작 등 정보의 층위가 복잡하여 기존에는 검색과 정리가 매우 어려웠습니다. - Aana는 텍스트, 이미지, 오디오를 개별적으로 처리하는 대신, 이들이 서로 어떻게 상호작용하며 의미를 형성하는지 분석하는 통합적 접근 방식을 취합니다. - 모든 분석 정보는 '공유 벡터 공간(Shared Vector Space)'으로 변환되어, "발표자가 API 흐름을 설명하는 부분"과 같은 구체적인 맥락 기반의 검색을 가능하게 합니다. **효율적인 추론을 위한 기술적 아키텍처** - 오디오 분석에는 Whisper를 최적화한 `faster-whisper-large-v3-turbo` 모델을 사용하며, 시각 및 언어 시스템에는 트랜스포머 기반의 MoE(Mixture-of-Experts) 아키텍처를 적용했습니다. - **HQQ(High Quality Quantization) 시스템:** 4비트 및 8비트 저비트 추론을 지원하여 대규모 데이터 처리 시 발생하는 컴퓨팅 비용과 메모리 요구량을 획기적으로 낮췄습니다. - **Gemlite 기술:** 커스텀 GPU 커널을 통해 행렬 곱셈과 어텐션 레이어 같은 핵심 AI 연산을 가속화합니다. - **Aana SDK:** 모델 조정, 배치 처리, GPU 활용 최적화를 관리하는 유연한 프레임워크를 제공하여 복잡한 멀티모달 워크플로우를 효율적으로 배포할 수 있도록 지원합니다. **미디어 데이터를 지식으로 전환하는 미래 가치** - 전통적인 아키텍처의 극히 일부에 불과한 컴퓨팅 자원만으로도 엑사바이트(exabytes)급의 방대한 데이터를 분석할 수 있는 경제성을 확보했습니다. - 단순 검색을 넘어 회의 요약, 특정 시각적 모티프 탐색 등 멀티모달 데이터를 해석하고 자동으로 통찰을 제공하는 '에이전틱 워크플로우(Agentic workflows)'의 기반이 됩니다. - 마케팅, 크리에이티브, 기술 팀은 수년 치의 미디어 아카이브를 수동으로 뒤지는 대신, AI를 통해 즉각적인 답변을 얻고 아이디어를 실행에 옮길 수 있습니다. Dropbox Dash와 Aana의 결합은 사용자가 콘텐츠의 형식이나 위치에 구애받지 않고 업무의 맥락에 집중할 수 있게 합니다. 특히 영상 속 특정 장면을 찾기 위해 타임라인을 일일이 훑어야 했던 수고를 덜어줌으로써, 미디어 집약적인 업무를 수행하는 전문가들에게 실질적인 생산성 향상을 제공할 것으로 기대됩니다.

나만의 방식대로 배우기: (새 탭에서 열림)

구글 리서치가 발표한 'Learn Your Way'는 생성형 AI를 활용해 모든 학생에게 동일하게 제공되던 기존 교과서를 개별 학습자에게 최적화된 다중 매체 학습 도구로 재구성하는 연구 프로젝트입니다. 교육 전문 모델인 LearnLM과 Gemini 2.5 Pro를 기반으로 한 이 시스템은 학습자의 관심사와 학년 수준에 맞춰 내용을 변형하며, 실험 결과 일반적인 디지털 리더를 사용한 학생들보다 학습 기억력 점수가 11%p 더 높게 나타나는 성과를 거두었습니다. **학습자 맞춤형 개인화 파이프라인** * 학습자가 자신의 학년과 관심사(스포츠, 음악, 음식 등)를 설정하면 AI가 원본 PDF의 내용은 유지하면서 난이도를 적절하게 재조정합니다. * 교과서 속의 일반적이고 딱딱한 예시들을 학습자가 선택한 관심사와 관련된 사례로 전략적으로 교체하여 학습 동기를 부여합니다. * 이렇게 개인화된 텍스트는 이후 생성되는 마인드맵, 오디오 강의, 슬라이드 등 모든 다른 형식의 콘텐츠를 생성하는 근간이 됩니다. **학습 효과를 극대화하는 다중 표상 기술** * 이중 부호화 이론(Dual Coding Theory)에 근거하여, 텍스트 외에도 이미지, 마인드맵, 타임라인 등 다양한 시각적·청각적 형식을 제공함으로써 뇌의 개념 체계 형성을 돕습니다. * 단순한 이미지 생성을 넘어, 일반적인 AI 모델이 어려워하는 교육용 정밀 일러스트레이션을 생성하기 위해 특화된 전용 모델을 미세 조정(Fine-tuning)하여 활용했습니다. * 다단계 에이전트 워크플로우를 통해 나레이션이 포함된 슬라이드 제작과 같이 복잡한 교육학적 과정이 필요한 콘텐츠를 자동 생성합니다. **Learn Your Way의 주요 인터페이스 구성** * **몰입형 텍스트(Immersive Text):** 긴 본문을 소화하기 쉬운 단위로 나누고, 생성된 이미지와 임베디드 질문을 배치해 수동적인 독서를 능동적인 학습 경험으로 전환합니다. * **섹션별 퀴즈:** 실시간 응답을 기반으로 학습자가 자신의 지식 격차를 파악할 수 있도록 돕고, 학습 경로를 다시 최적화하는 피드백 루프를 제공합니다. * **슬라이드 및 오디오 강의:** 전체 학습 내용을 요약한 프레젠테이션과 빈칸 채우기 활동, 그리고 이동 중에도 들을 수 있는 오디오 강의를 제공하여 다양한 학습 환경에 대응합니다. 이 연구는 생성형 AI가 단순히 정보를 요약하는 수준을 넘어, 교육학적 원리를 기술적으로 구현하여 학습자 중심의 개인화된 교육 환경을 구축할 수 있음을 보여줍니다. 향후 교과서는 정적인 텍스트가 아니라 학습자의 반응과 필요에 따라 실시간으로 변화하는 유연한 학습 파트너의 역할을 하게 될 것으로 기대됩니다.

지리공간 추론: 생성 (새 탭에서 열림)

구글 리서치는 생성형 AI와 다중 파운데이션 모델을 결합하여 복잡한 지리 공간 문제를 해결하는 '지형 공간 추론(Geospatial Reasoning)' 연구 프레임워크를 공개했습니다. 이 시스템은 고해상도 원격 탐사 데이터, 인구 역학, 이동 경로 모델을 통합하여 전문 지식 없이도 자연어로 고차원적인 지리적 분석 결과를 도출할 수 있게 지원합니다. 이를 통해 재난 대응, 도시 계획, 기후 회복력 강화 등 다양한 분야에서 데이터 기반의 의사결정 속도를 획기적으로 높일 것으로 기대됩니다. **지형 공간 파운데이션 모델의 기술적 토대** * **원격 탐사 모델의 아키텍처**: Masked Autoencoders, SigLIP, MaMMUT, OWL-ViT 등 검증된 시각-언어 모델 구조를 원격 탐사 영역에 맞게 최적화하여 적용했습니다. * **다양한 데이터 학습**: 텍스트 설명과 바운딩 박스(Bounding Box) 주석이 포함된 고해상도 위성 및 항공 이미지를 대규모로 학습하여, 이미지와 객체에 대한 정교한 임베딩을 생성합니다. * **자연어 기반 제로샷(Zero-shot) 분류**: 별도의 추가 학습 없이 "태양광 패널이 있는 주거용 건물"이나 "통행 불가능한 도로"와 같은 자연어 검색만으로 특정 지형이나 시설을 찾아낼 수 있습니다. * **성능 검증 및 실전 투입**: 분류, 세그멘테이션, 객체 탐지 벤치마크에서 SOTA(최고 수준) 성능을 기록했으며, 구글의 실제 재난 대응 및 도시/농업 경관 매핑 프로젝트에서 그 효용성을 입증했습니다. **데이터 통합과 에이전트 기반 추론 프레임워크** * **다중 모델 결합**: 인구 행동과 환경의 상호작용을 분석하는 '인구 역학 파운데이션 모델(PDFM)'과 궤적 기반의 '모빌리티 모델'을 통합하여 다각적인 분석이 가능합니다. * **LLM 기반 에이전트 워크플로우**: Gemini와 같은 거대언어모델(LLM)이 복잡한 지리 공간 데이터를 관리하고 조율하는 에이전트 역할을 수행하여, 복잡한 분석 과정을 자동화합니다. * **인구 역학 데이터의 글로벌 확장**: 기존 미국 중심의 PDFM 데이터를 영국, 호주, 일본, 캐나다, 말라위 등으로 확장하여 전 세계적인 분석 기반을 마련 중입니다. * **산업 파트너십**: Airbus, Maxar, Planet Labs 등 글로벌 위성 데이터 기업들과 협력하여 실무 환경에서의 테스트를 진행하고 있습니다. 현재 구글은 '신뢰할 수 있는 테스터 프로그램'을 통해 해당 모델들에 대한 접근권을 제공하고 있습니다. 지리 공간 데이터 분석의 높은 진입 장벽을 낮추고자 하는 조직은 구글 리서치가 제공하는 파운데이션 모델 임베딩을 활용해 독자적인 분석 모델을 고도화하거나, 자연어 기반의 지형 추론 워크플로우를 실험적으로 도입해 보는 것을 권장합니다.