[디지털투데이] 소형 언어 모델, 생성형 AI판 격전지로…”작지만 성능은 GPT 3.5급”
마이크로소프트가 신형 소형 AI 모델 파이3(Phi-3) 3종을 선보인다.
마이크로소프트는 파이3 시리즈 중 가장 소규모 모델도 오픈AI GPT-3.5 수준 역량을 보여준다고 강조해 눈길을 끈다.
마이크로소프트는 파이-3 시리즈 중 가장 소형 버전인 파이-3 미니를 먼저 선보인다. 파이-3 미니는 38억개 매개변수 규모로 GPT-4 같은 거대 언어 모델과 비교해 상대적으로 작은 데이터셋 기반으로 훈련됐다. 애저, 허깅페이스, 올라마(Ollama)에서 이용할 수 있다.
마이크로소프트는 파이-3 스몰(매개변수 70억개)와 파이-3 미디엄(매개변수 140억개) 버전도 선보일 계획이다.
언어 모델에서 매개변수( Parameters)는 AI가 이해할 수 있는 복잡한 명령이 몇개인지를 의미한다. 매개변수가 많을 수록 언어 모델 역량도 뛰어난 것으로 통한다.
마이크로소프트 파이-3 시리즈 중 가장 규모가 작은 파이-3 미니의 경우 스마트폰에서 적합하다. 사용자들은 스마트폰에서 인터넷에 연결되지 않고도 사용할 수 있다. 또 엔비디아 GPU 같은 고가 칩이 아니라 일반 컴퓨터에 쓰이는 칩에서도 작동이 가능하다.
소형 AI 모델들은 프로세서를 많이 필요로 하지 않기 때문에 GPT-4 같은 LLM 보다 비용이 저렴한 것이 특징이다. 마이크로소프트도 GPT-4 대비 파이-3 시리즈 모델 사용 비용은 매우 저렴할 것이라고 강조하고 있다.
마이크로소프트는 지난해 12월 파이-2 버전을 선보였다. 당시 파이-2 버전은 메타 라마2와 비슷한 성능을 보였다. 마이크로소프트는 파이-3와 관련해 이전 버전 대비 좋아졌고 10배 정도 큰 모델과 맞먹는 결과물을 보여줄 수 있다는 입장이다.
더버지에 따르면 마이크로소프트 애저 AI 플랫폼 담당 에릭 보이드 부사장은 “파이-3 미니는 폼팩터만 작을 뿐 GPT-3.5 수준 역량”이라고 말했다.
소형 AI 모델들은 GPT-4 같은 LLM과 비교해 결과물 정확도가 떨어지거나 어색해 보일 수 있다. 그럼에도 마이크로소프트와 다른 빅테크 기업들은 고객들이 비용이 저렴하다면, 성능은 일부 포기할 거란데 베팅하고 있다고 뉴욕타임스는 전했다.
마이크로소프트는 의사나 세무사 같은 일부 고객들은 크고 정확한 AI 모델에 비용을 쓸만 하지만 많은 작업들은 그정도 정확성을 필요로 하지 않는다고 보고 있다. 예를 들면 온라인 광고주들은 AI로 보다 나은 타깃 광고를 할 수 있다고 보지만 정기적으로 쓸 수 있도록 저렴한 비용을 필요로 한다고 마이크로소프트는 설명했다.
보이드 부사장은 “의사는 정확하게 치료해주기를 바라지만 온라인 사용자 리뷰를 요약하는 상황에서 조금 잘못되었다고 해서 세상이 끝나는 건 아니다”고 말했다.
마이크로소프트 외에 다른 빅테크 기업들도 소형 언어 모델에 적극적이다. 이들 회사는 소형 모델로 문서 요약이나 코딩 지원 같은 간단한 작업을 겨냥하고 있다. 구글이 제공하는 젬마 2B(매개변수 20억개)와 7B는 간단한 챗봇이나 언어 관련 작업에 적합하다. 앤트로픽 클로드3 하이쿠는 그래프가 있는 연구 논문을 읽고 이를 빠르게 요약할 수 있다. 최근 공개된 라마3 8B는 코딩 지원용 챗봇에 쓰일 수 있다.
출처 :
https://www.digitaltoday.co.kr/news/articleView.html?idxno=514985