[AI 타임스] MS, sLM ‘파이 3.5’ 시리즈 오픈 소스 출시…”추론부터 이미지 분석까지”

사진 = 셔터스톡
마이크로소프트(MS)가 새로운 소형언어모델(sLM) ‘파이 3.5(Phi 3.5)’ 시리즈를 출시했다.
벤치마크 결과, 일부 기능에서 구글의 ‘젬마 1.5’, 메타의 ‘라마 3.1’, 오픈AI의 ‘GPT-4o 미니’ 등의 성능을 능가했다고 주장했다.
벤처비트는 20일(현지시간) MS가 ▲38억2000만 매개변수의 빠른 추론용 ‘파이-3.5-미니-인스트럭트’ ▲419억 매개변수의 고급 추론용 ‘파이-3.5-MoE-인스트럭트’ ▲41억5000만 매개변수의 이미지 및 비디오 분석용 ‘파이-3.5-비전-인스트럭트’ 등을 오픈 소스로 출시했다고 보도했다.
파이-3.5-미니-인스트럭트는 노트북이나 모바일 기기 등 제한된 컴퓨팅 환경에서 추론을 비롯한 코드 생성, 수학 문제 해결 작업을 위해 설계됐다.
다국어 및 복잡한 대화에 관련 성능이 최적화됐으며, 12만8000토큰의 컨텍스트 창을 지원해 대량의 텍스트도 한번에 검토하는 것이 가능하다.
특히 긴 컨텍스트 코드 이해를 측정하는 리포QA(RepoQA) 벤치마크에서 ‘라마-3.1-8B-인스트럭트’ ‘미스트랄-7B-인스트럭트’ 등 동급 모델의 성능을 능가했다.

벤치마크 결과 (사진=MS)
파이-3.5-MoE-인스트럭트는 전문가 혼합(MoE) 방식을 채택해 다양한 추론 작업에서 좋은 성능을 내도록 설계됐으며, 12만8000토큰의 컨텍스트 창을 지원한다.
MoE는 대형언어모델(LLM)을 작은 전문 모델(Expert)로 쪼개고, 질문에 따라 전문 모델을 연결하거나 몇 종류를 섞는 방식이다.
주어진 요청에 필요한 전문 모델만 처리를 담당하기 때문에 파이-3.5-MoE-인스트럭트는 전체 419억 매개변수 중에서 66억개만 활성화해 작업을 수행한다.
이로 인해 전체 큰 모델을 돌리는 것보다 비용과 시간이 훨씬 적게 들어간다.
이를 통해 일부 벤치마크 결과에서 GPT-4o 미니를 넘어서는 결과를 달성했다.
STEM, 인문학, 사회 과학 등 등 다양한 분야의 언어 이해도를 평가하는 ‘MMLU’ 벤치마크에서 GPT-4o 미니보다 평균 2~3% 높은 점수를 기록했다.
코드를 이해하거나 긴 문맥에서의 정보 추출을 평가하는 ‘레포QA’에서도 높은 성과를 거뒀다.
파이-3.5-비전-인스트럭트은 텍스트와 이미지 처리 기능을 모두 통합한 멀티모달 모델이다.
일반적인 이미지 이해, 광학 문자 인식, 차트 및 표 이해, 비디오 요약과 같은 작업에 특히 적합하다.
12만8000토큰 컨텍스트 창을 지원해 복잡한 다중 프레임 시각적 작업을 관리할 수 있다.
현재 파이 3.5 시리즈 모델은 허깅페이스에서 다운로드해 사용할 수 있고, 자체 데이터로 미세조정도 가능하다.
또한 MS의 MIT 라이선스 기반으로 상업적 사용 및 수정, 배포에 제한이 없다.
박찬 기자
출처: https://www.aitimes.com/news/articleView.html?idxno=162668