inference-optimization

3 개의 포스트

Mobius Labs의 Aana 모델을 (새 탭에서 열림)

Dropbox는 최근 인수한 Mobius Labs의 멀티모달 AI 모델 'Aana'를 지능형 비서인 Dropbox Dash에 통합하여, 텍스트를 넘어 이미지와 비디오, 오디오를 깊이 있게 이해하는 검색 환경을 구축하고 있습니다. Aana는 기존 방식보다 훨씬 적은 연산 자원을 사용하면서도 다양한 미디어 간의 복잡한 관계를 분석하여, 사용자가 방대한 양의 멀티모달 콘텐츠에서 필요한 정보를 자연어 검색만으로 즉시 찾아낼 수 있게 돕습니다. 이를 통해 파편화된 미디어 데이터는 연결된 지식 자산으로 전환되며, 창의적인 협업과 업무 효율성을 극대화하는 기반이 마련되었습니다. **확장성을 고려한 멀티모달 분석 엔진** - 비디오와 오디오는 장면 전환, 화자 변경, 화면 내 텍스트, 동작 등 정보의 층위가 복잡하여 기존에는 검색과 정리가 매우 어려웠습니다. - Aana는 텍스트, 이미지, 오디오를 개별적으로 처리하는 대신, 이들이 서로 어떻게 상호작용하며 의미를 형성하는지 분석하는 통합적 접근 방식을 취합니다. - 모든 분석 정보는 '공유 벡터 공간(Shared Vector Space)'으로 변환되어, "발표자가 API 흐름을 설명하는 부분"과 같은 구체적인 맥락 기반의 검색을 가능하게 합니다. **효율적인 추론을 위한 기술적 아키텍처** - 오디오 분석에는 Whisper를 최적화한 `faster-whisper-large-v3-turbo` 모델을 사용하며, 시각 및 언어 시스템에는 트랜스포머 기반의 MoE(Mixture-of-Experts) 아키텍처를 적용했습니다. - **HQQ(High Quality Quantization) 시스템:** 4비트 및 8비트 저비트 추론을 지원하여 대규모 데이터 처리 시 발생하는 컴퓨팅 비용과 메모리 요구량을 획기적으로 낮췄습니다. - **Gemlite 기술:** 커스텀 GPU 커널을 통해 행렬 곱셈과 어텐션 레이어 같은 핵심 AI 연산을 가속화합니다. - **Aana SDK:** 모델 조정, 배치 처리, GPU 활용 최적화를 관리하는 유연한 프레임워크를 제공하여 복잡한 멀티모달 워크플로우를 효율적으로 배포할 수 있도록 지원합니다. **미디어 데이터를 지식으로 전환하는 미래 가치** - 전통적인 아키텍처의 극히 일부에 불과한 컴퓨팅 자원만으로도 엑사바이트(exabytes)급의 방대한 데이터를 분석할 수 있는 경제성을 확보했습니다. - 단순 검색을 넘어 회의 요약, 특정 시각적 모티프 탐색 등 멀티모달 데이터를 해석하고 자동으로 통찰을 제공하는 '에이전틱 워크플로우(Agentic workflows)'의 기반이 됩니다. - 마케팅, 크리에이티브, 기술 팀은 수년 치의 미디어 아카이브를 수동으로 뒤지는 대신, AI를 통해 즉각적인 답변을 얻고 아이디어를 실행에 옮길 수 있습니다. Dropbox Dash와 Aana의 결합은 사용자가 콘텐츠의 형식이나 위치에 구애받지 않고 업무의 맥락에 집중할 수 있게 합니다. 특히 영상 속 특정 장면을 찾기 위해 타임라인을 일일이 훑어야 했던 수고를 덜어줌으로써, 미디어 집약적인 업무를 수행하는 전문가들에게 실질적인 생산성 향상을 제공할 것으로 기대됩니다.

거대 머신러닝 모델의 (새 탭에서 열림)

HQQ(Half-Quadratic Quantization)는 별도의 데이터 보정(Calibration) 과정 없이도 대규모 언어 모델(LLM)을 초고속으로 양자화할 수 있는 혁신적인 알고리즘입니다. 기존 GPTQ 대비 50배 이상 빠른 속도를 자랑하며, Llama-2-70B 모델을 단 5분 만에 양자화하면서도 보정 데이터 기반 방식에 뒤처지지 않는 높은 압축 품질을 제공합니다. 특히 2비트로 양자화된 Llama-2-70B 모델이 전체 정밀도의 Llama-2-13B 모델 성능을 크게 앞지르는 등 효율성과 성능을 동시에 입증했습니다. **기존 양자화 방식의 한계와 HQQ의 접근법** * GPTQ나 AWQ와 같은 기존 보정 기반 방식은 외부 데이터셋을 사용해 레이어 출력의 오차를 최소화하지만, 데이터셋에 따른 편향(Bias)이 발생할 수 있고 연산 시간이 길다는 단점이 있습니다. * HQQ는 외부 데이터 없이 가중치(Weight) 자체의 오차를 직접 최소화하는 견고한 최적화 공식을 채택하여 데이터 편향 문제를 근본적으로 해결했습니다. * 가중치 내의 이상치(Outlier)를 효과적으로 처리하기 위해 제곱 오차 대신 하이퍼-라플라시안(hyper-Laplacian) 분포를 잘 포착하는 $l_{p<1}$ 노름(norm) 기반의 손실 함수를 도입했습니다. **Half-Quadratic Solver를 이용한 비볼록 최적화** * $l_p$ 노름을 사용하면 최적화 문제가 비볼록(Non-convex)해지는데, HQQ는 이를 해결하기 위해 보조 변수 $W_e$를 도입한 'Half-Quadratic Solver'를 사용합니다. * 이 방식은 복잡한 전체 문제를 풀기 쉬운 두 개의 서브 문제($sp_1, sp_2$)로 나누어 교차 최적화(Alternate Optimization)를 수행합니다. * 첫 번째 서브 문제($sp_1$)는 일반화된 소프트 임계값(Generalized Soft-thresholding) 연산자를 통해 가중치의 희소성을 촉진하고 이상치 에러를 보정합니다. * 두 번째 서브 문제($sp_2$)는 고정된 스케일($s$) 값 하에서 제로 포인트($z$)의 최적으로 도출하며, 이는 양자화 그룹별 평균을 구하는 간단한 수식으로 계산됩니다. **그래디언트 없는 폐쇄형 해의 기술적 이점** * HQQ는 PyTorch의 autograd를 사용하는 그래디언트 하강법 대신 수학적으로 도출된 폐쇄형 해(Closed-form solution)를 사용하여 단 몇 번의 반복만으로 수렴합니다. * 역전파(Backpropagation) 과정이 필요 없으므로 모든 계산을 추론 모드 및 반정밀도(Half-precision)에서 수행할 수 있으며, 이는 autograd 방식 대비 약 100배 이상의 속도 향상을 가져옵니다. * 이러한 효율성 덕분에 수천 번의 반복이 필요한 AdamW 최적화 도구보다 안정적이며, $p < 1$ 설정에서도 수렴 실패 없이 최적의 양자화 파라미터를 찾아낼 수 있습니다. HQQ는 보정 데이터에 대한 의존성을 제거하고 양자화 소요 시간을 '시간' 단위에서 '분' 단위로 단축함으로써, 리소스가 제한된 환경에서 대규모 모델을 신속하게 배포해야 하는 엔지니어들에게 매우 실용적인 해결책이 될 것입니다. 특히 모델의 크기가 커질수록 성능 우위가 두드러지므로, 최신 초거대 모델의 추론 최적화에 적극 권장됩니다.

추측형 캐스케이드 — (새 탭에서 열림)

구글 리서치(Google Research)는 거대 언어 모델(LLM)의 추론 속도를 높이고 비용을 절감하기 위해 '스펙큘레이티브 디코딩(Speculative Decoding)'과 '표준 캐스케이드(Standard Cascades)' 방식을 결합한 **스펙큘레이티브 캐스케이드(Speculative Cascades)** 기법을 제안했습니다. 이 하이브리드 접근 방식은 작은 모델이 생성한 초안이 대형 모델의 결과와 반드시 토큰 단위로 일치하지 않더라도, 품질 면에서 충분히 유효하다면 이를 수용함으로써 불필요한 재계산을 방지합니다. 결과적으로 이 기법은 기존의 두 방식보다 더 나은 비용 대비 품질 효율을 달성하며, 요약, 번역, 코딩 등 다양한 언어 작업에서 성능 향상을 입증했습니다. ### 기존 추론 가속 기법의 병목 현상 * **표준 캐스케이드(Cascades):** 작은 모델이 먼저 답변을 시도하고, 확신이 없을 때만 대형 모델로 작업을 넘기는 '지연 규칙(Deferral Rule)'을 사용합니다. 하지만 이 방식은 순차적(Sequential)으로 진행되기에, 작은 모델이 실패할 경우 대형 모델이 처음부터 다시 계산을 시작해야 하므로 시간 낭비가 발생합니다. * **스펙큘레이티브 디코딩(Speculative Decoding):** 작은 '드래프트' 모델이 토큰 뭉치를 먼저 생성하면 대형 모델이 이를 병렬로 검증합니다. 결과물의 품질은 대형 모델과 동일하게 유지되지만, 작은 모델의 답변이 내용상 훌륭하더라도 대형 모델의 특정 표현 스타일과 토큰 단위로 일치하지 않으면 기각(Rejection)되어 속도 이점이 사라집니다. ### 스펙큘레이티브 캐스케이드의 하이브리드 접근법 * **유연한 수용 기준:** 기존 스펙큘레이티브 디코딩이 엄격한 토큰 일치(또는 확률적 일치)를 요구하는 것과 달리, 스펙큘레이티브 캐스케이드는 드래프트 모델의 출력이 '충분히 좋은지'를 판단하여 수용 여부를 결정합니다. * **병렬 검증과 효율의 결합:** 드래프트 모델이 토큰을 생성하는 동안 대형 모델이 이를 병렬로 검토하여 지연 시간을 줄이면서도, 캐스케이드의 비용 절감 논리를 도입하여 대형 모델이 모든 작업을 독점하지 않게 설계되었습니다. * **지연 병목 해소:** 작은 모델의 결과가 만족스럽지 않을 때만 대형 모델의 자원을 사용함으로써, 표준 캐스케이드에서 발생하던 순차적 대기 시간 문제를 해결하고 전체적인 추론 처리량을 높였습니다. ### 실험 결과 및 성능 입증 * **다양한 모델 및 과제 적용:** 구글의 Gemma와 T5 모델을 활용하여 요약, 번역, 추론, 코딩, 질의응답 등 광범위한 언어 작업에서 테스트를 진행했습니다. * **비용-품질 최적화:** 실험 결과, 스펙큘레이티브 캐스케이드는 기존의 단일 기법들보다 동일 비용 대비 더 높은 품질의 결과물을 생성하거나, 동일 품질 대비 더 빠른 추론 속도를 기록했습니다. * **적응형 응답 생성:** 특히 답변의 스타일이 여러 가지일 수 있는 개방형 작업에서, 대형 모델의 답변과 토큰 단위로 정확히 일치하지 않아도 품질을 유지하며 속도를 획기적으로 개선하는 모습을 보였습니다. LLM 서비스를 운영하는 개발자나 기업은 스펙큘레이티브 캐스케이드를 도입함으로써 고성능 모델의 정확도와 소형 모델의 경제성을 동시에 확보할 수 있습니다. 특히 실시간 응답이 중요하면서도 운영 비용 최적화가 필요한 대규모 사용자 서비스에서 이 기법은 매우 실용적인 해결책이 될 것입니다.