[AI타임스] 가드레일 없이도 헛소리 안 하는 ‘시스템 프롬프트 준수’ LLM 등장
별도의 가드레일을 설정하지 않아도 학습 과정에서 시스템 프롬프트(system prompts)를 엄격하게 따르도록 하는 대형언어모델(LLM)이 등장했다. 이 방면에 다소 취약했던 오픈 소스 개발자들에게 유용하다는 설명이다.
벤처비트는 7일(현지시간) 미국의 인공지능(AI) 스타트업 아바쿠스 AI(Abacus AI)가 모든 시나리오에서 시스템 프롬프트를 따르도록 미세조정한 오픈 소스 LLM을 출시했다고 보도했다.
이에 따르면 ‘리버레이트-큐원1.5-72B(Liberated-Qwen1.5-72B)’라고 불리는 이 모델은 알리바바의 파운데이션 모델 ‘큐원1.5-72B’를 베이스로 사용했다.
개발자들은 챗봇의 환각이나 탈옥을 방지하기 위해 시스템 프롬프트를 설정한다. 이는 모델의 목표나 역할을 지정하는 등 상황과 지침을 제공하는 방법이다.
하지만 대부분의 오픈 소스 모델은 이를 완벽하게 실행하지 못하는 것으로 알려졌다. 아바쿠스 AI는 이를 해결하기 위해 특정한 데이터셋으로 모델을 미세조정했다.
미스트랄(Mistral-Medium)과 돌핀-2.7-믹스트랄(Dolphin-2.7-mixtral-8x7b)로 생성한 7K 규모의 오픈 소스 합성 대화 데이터셋 ‘시스템챗(SystemChat)’을 활용했다. 이를 통해 모델이 사용자 요구를 벗어나는 경우도 강제로 시스템 메시지를 준수하도록 학습했다.
빈두 레디 아바쿠스 AI CEO는 “이 데이터셋으로 모델을 미세 조정하면 훨씬 더 유용해지고 탈옥이 어려워진다”라고 말했다. 또 인간과의 대화는 물론 코드 생성에 큰 도움이 된다고 설명했다.
실제로 이 모델은 벤치마크 결과 코드 생성 능력 평가(HumanEval)에서 큐원1.5-72B의 8.44375점을 넘어서는 8.45점을 기록했다. 또 지식과 문제 해결 능력 테스트(MMLU)에서 77.13점을 획득, 오픈 소스 모델 중 최고를 기록했다.
모델이 별도의 가드레일 없이 완전한 ‘무수정’ 상태라는 점에서 주위도 필요하다고 지적했다. 이는 특정 방식으로 작동하도록 시스템 메시지를 준수하면서 주저하지 않고 민감한 주제를 포함해 모든 질문에 답변한다는 의미다. 아바쿠스 AI는 모델을 서비스로 노출하기 전에 자체 정렬 레이어를 구현해야 한다고 경고했다.
한편 아바쿠스 AI는 지난달 허깅페이스 오픈 소스 LLM 리더보드에서 최초로 평균 80점을 넘긴 ‘스마우그-72B(Smaug-72B)’를 구축한 곳이다. AWS에서 AI 부문을 총괄한 빈두 레디와 구글이나 우버 출신 주요 개발자가 포진해 있다. 스마우그 역시 큐원을 미세조정한 결과다.
이 회사는 시스템챗 데이터셋을 스마우그 훈련에 사용하는 데이터셋에 혼합, 두 모델의 속성을 결합하고 있다고 밝혔다. 이 경우 현재 최고 점수를 받은 스마우그의 성능을 더 끌어 올릴 것으로 기대한다고 밝혔다.
리버레이트 모델은 현재 허깅페이스를 통해 오픈 소스로 공개됐으며, ‘큐원 라이선스’에 따라 1억명 이상 사용자를 보유한 경우에는 알리바바 측에 별도 라이선스를 요청해야 한다.
출처 :
https://www.aitimes.com/news/articleView.html?idxno=157820
참고 :
https://docs.anthropic.com/claude/docs/system-prompts