model-quantization

1 개의 포스트

거대 머신러닝 모델의 (새 탭에서 열림)

HQQ(Half-Quadratic Quantization)는 별도의 데이터 보정(Calibration) 과정 없이도 대규모 언어 모델(LLM)을 초고속으로 양자화할 수 있는 혁신적인 알고리즘입니다. 기존 GPTQ 대비 50배 이상 빠른 속도를 자랑하며, Llama-2-70B 모델을 단 5분 만에 양자화하면서도 보정 데이터 기반 방식에 뒤처지지 않는 높은 압축 품질을 제공합니다. 특히 2비트로 양자화된 Llama-2-70B 모델이 전체 정밀도의 Llama-2-13B 모델 성능을 크게 앞지르는 등 효율성과 성능을 동시에 입증했습니다. **기존 양자화 방식의 한계와 HQQ의 접근법** * GPTQ나 AWQ와 같은 기존 보정 기반 방식은 외부 데이터셋을 사용해 레이어 출력의 오차를 최소화하지만, 데이터셋에 따른 편향(Bias)이 발생할 수 있고 연산 시간이 길다는 단점이 있습니다. * HQQ는 외부 데이터 없이 가중치(Weight) 자체의 오차를 직접 최소화하는 견고한 최적화 공식을 채택하여 데이터 편향 문제를 근본적으로 해결했습니다. * 가중치 내의 이상치(Outlier)를 효과적으로 처리하기 위해 제곱 오차 대신 하이퍼-라플라시안(hyper-Laplacian) 분포를 잘 포착하는 $l_{p<1}$ 노름(norm) 기반의 손실 함수를 도입했습니다. **Half-Quadratic Solver를 이용한 비볼록 최적화** * $l_p$ 노름을 사용하면 최적화 문제가 비볼록(Non-convex)해지는데, HQQ는 이를 해결하기 위해 보조 변수 $W_e$를 도입한 'Half-Quadratic Solver'를 사용합니다. * 이 방식은 복잡한 전체 문제를 풀기 쉬운 두 개의 서브 문제($sp_1, sp_2$)로 나누어 교차 최적화(Alternate Optimization)를 수행합니다. * 첫 번째 서브 문제($sp_1$)는 일반화된 소프트 임계값(Generalized Soft-thresholding) 연산자를 통해 가중치의 희소성을 촉진하고 이상치 에러를 보정합니다. * 두 번째 서브 문제($sp_2$)는 고정된 스케일($s$) 값 하에서 제로 포인트($z$)의 최적으로 도출하며, 이는 양자화 그룹별 평균을 구하는 간단한 수식으로 계산됩니다. **그래디언트 없는 폐쇄형 해의 기술적 이점** * HQQ는 PyTorch의 autograd를 사용하는 그래디언트 하강법 대신 수학적으로 도출된 폐쇄형 해(Closed-form solution)를 사용하여 단 몇 번의 반복만으로 수렴합니다. * 역전파(Backpropagation) 과정이 필요 없으므로 모든 계산을 추론 모드 및 반정밀도(Half-precision)에서 수행할 수 있으며, 이는 autograd 방식 대비 약 100배 이상의 속도 향상을 가져옵니다. * 이러한 효율성 덕분에 수천 번의 반복이 필요한 AdamW 최적화 도구보다 안정적이며, $p < 1$ 설정에서도 수렴 실패 없이 최적의 양자화 파라미터를 찾아낼 수 있습니다. HQQ는 보정 데이터에 대한 의존성을 제거하고 양자화 소요 시간을 '시간' 단위에서 '분' 단위로 단축함으로써, 리소스가 제한된 환경에서 대규모 모델을 신속하게 배포해야 하는 엔지니어들에게 매우 실용적인 해결책이 될 것입니다. 특히 모델의 크기가 커질수록 성능 우위가 두드러지므로, 최신 초거대 모델의 추론 최적화에 적극 권장됩니다.