[디지털투데이] 메타, 경량화된 양자화 ‘라마 3.2’ 출시…추론 속도 향상
[디지털투데이 AI리포터] 메타가 대규모언어모델 ‘라마 3.2’ 제품군 중 최초로 경량화된 양자화 모델을 출시했다.
25일 온라인 매체 기가진에 따르면 기존의 성능을 거의 유지하면서 추론 속도와 메모리 사용량이 크게 개선된 것이 특징이다.
메타는 지난달 26일 라마 3.2 제품군을 공개했다. 11B, 90B의 대형 모델 외에도 1B, 3B라는 모바일 기기용 소형 모델도 함께 선보였다.
이번에 메타는 라마 3.2의 1B 및 3B 모델에 대해 부분적으로 4비트에서 8비트의 양자화를 실시했다. 학습 시 양자화의 영향을 고려하는 양자화인식훈련(QAT)을 수행한 후, LoRA 어댑터를 적용해 튜터링(Supervised Fine Tuning)을 하는 ‘QLoRA‘라는 기법을 사용해 성능을 거의 그대로 유지하면서 모델 경량화에 성공했다고 한다.
그 결과, QLoRA는 정확도를 약간 떨어뜨리면서 디코딩 속도를 약 2.5배까지 끌어올렸다. 토큰 디코딩 속도는 두 모델 모두 2.4배 빨라졌고, 첫 번째 토큰이 생성되는 데 걸리는 시간은 76% 감소했다. 아울러 추론 시 사용하는 메모리의 양은 1B 모델에서 약 30%, 3B 모델에서는 약 45% 감소하는 결과를 보였다.
이번에 공개된 모델은 라마 공식 홈페이지 및 허깅페이스에서 다운로드 받을 수 있다.
출처 :
https://www.digitaltoday.co.kr/news/articleView.html?idxno=538711