[AI Times] ‘단어’ 대신 ‘행동’ 예측…트랜스포머 한계 넘는 새로운 모델 등장

아폴로-1 신경-기호 추론기 (사진=AUI)
10년 넘게 발전해 온 대화형 인공지능(AI)이 여전히 사용자 대신 실제 업무를 안정적으로 수행하는 문제를 해결하지 못한 가운데, 미국 스타트업 AUI(Augmented Intelligence)가 새로운 해법을 제시했다.
AUI는 3일(현지시간) AI가 대화를 넘어서 실제로 행동할 수 있도록 설계된 새로운 기반 모델 ‘아폴로-1(Apollo-1)’을 공개했다.
현재 일부 기업 고객과 미리보기 테스트 중이며, 다음 달 정식 출시가 예고돼 있다.
이는 ‘상태 기반 신경-기호 추론(stateful neuro-symbolic reasoning)’ 구조를 도입, AI가 지시된 작업을 신뢰성 있게 수행하도록 설계됐다.
‘챗GPT’나 ‘제미나이’ ‘클로드’ 같은 트랜스포머(Transformers) 아키텍처 기반의 대형언어모델(LLM)이 대화와 창의적 응답에는 강하지만, 업무 정확성에서는 한계를 보인다는 점을 극복하려는 시도다.
AI의 실행 성능을 측정하는 대표 벤치마크 ‘터미널-벤치 하드(Terminal-Bench Hard)’에서 최신 AI 모델들의 평균 점수는 30%대에 불과하다. 항공권 예약 정확도를 평가하는 ‘TAU-벤치 에어라인’에서도 최고 성능을 보인 ‘클로드 3.7 소네트’조차 56%의 성공률에 그쳐, 절반 가까운 작업에서 실패했다.
AUI의 상태 기반 신경-기호 추론은 트랜스포머가 사용하는 확률적 예측 구조 대신, 기호(symbolic) 논리와 신경망(neural network)을 결합해 정확한 행동을 보장하는 하이브리드 구조다.
기존 트랜스포머 모델은 ‘다음에 올 단어’를 예측한다. 반면, 아폴로-1은 ‘다음에 취할 행동(next action)’을 예측한다. 이를 위해 AUI는 ‘기호 상태(symbolic state)’를 기반으로 하는 구조를 도입했다.
신경-기호란 두가지 AI 패러다임을 결합한 것이다. 기호 계층은 의도(intent), 개체(entity), 매개변수(parameter) 같은 구조를 이해하고, 신경망 계층은 언어 유창성을 제공한다. 두 계층 사이에서 추론을 수행하는 것이 바로 아폴로-1의 핵심 두뇌다.
아폴로-1은 단순히 문장을 만들어내는 기존 방식과 달리, ‘폐쇄형 추론 루프(closed reasoning loop)’라는 구조로 작동한다.
사용자의 입력 문장은 먼저 인코더(encoder)를 통해 기호 상태(symbolic state)로 바뀌고, 상태 머신(state machine)이 이 상태를 기억한다.
그다음 결정 엔진(decision engine)이 다음에 취할 행동을 정하고, 플래너(planner)가 실제로 그 행동을 수행한다. 마지막으로 디코더(decoder)가 그 결과를 자연스러운 문장으로 다시 바꿔준다.
이 과정은 작업이 완전히 끝날 때까지 여러번 반복되며, 그 결과는 우연이나 확률에 의존하지 않고 항상 같은 결정을 내리는 ‘결정론적(deterministic)’ 방식으로 나온다.
AUI가 차세대 대화형 AI 모델 아폴로-1을 개발하게 된 배경에는 2017년부터 축적된 방대한 데이터 연구가 있다. AUI는 6만명의 실제 상담 인력이 수행한 수백만건의 업무 대화를 분석하고 이를 체계적으로 인코딩했다.
이 과정을 통해 AUI는 절차적 지식(단계, 제약, 흐름)과 기술적 지식(개체, 속성)을 분리할 수 있는 기호적 언어(symbolic language)를 구축했다.
오하드 엘헬로 공동 창립자는 “배달, 보험 청구, 주문 관리 같은 업무 대화는 본질적으로 유사한 절차적 패턴을 가진다”라며 “이를 명시적으로 모델링하면 확률이 아닌 결정적 방식으로 연산할 수 있다”라고 설명했다.
이 통찰을 바탕으로 AUI는 ‘신경-기호 추론기(neuro-symbolic reasoner)’를 완성했다. 이 시스템은 트랜스포머처럼 다음 단어를 예측하는 대신, 기호 상태를 바탕으로 대화의 다음 행동을 결정한다.

벤치마크 결과 (사진=AUI)
AUI는 자체 벤치마크 테스트에서 아폴로-1이 기존 모델을 압도적으로 능가했다고 밝혔다.
TAU-벤치 에어라인 테스트에서 아폴로-1은 90% 이상의 성공률을 기록, 클로드-4(60%)를 크게 앞질렀다.
또 ‘구글 플라이트(Google Flights)’ 실시간 예약 시나리오에서 83%, ‘아마존 리테일’ 시나리오에서 91%의 성공률을 보였다. 이는 각각 ‘제미나이 2.5-플래시(22%)’와 ‘아마존 루퍼스(17%)’에 비해 몇배 높은 수치다.
AUI는 “아폴로-1은 단순한 정확도 향상을 넘어, 기존 AI가 해결하지 못한 ‘신뢰성(reliability)’ 문제를 근본적으로 해결하는 새로운 접근법”이라고 강조했다.
아폴로-1은 주요 클라우드 환경에서 GPU와 CPU 혼합으로 실행 가능한 구조를 갖췄다는 것도 장점이다. 별도의 전용 인프라 없이 비용 효율적으로 배포할 수 있다는 점도 강조됐다.
한편, AUI는 최근 7억5000만달러(약 1조원) 가치 평가로 2000만달러(약 280억원) 규모의 브리지 SAFE 라운드를 마무리했다. 이 투자에는 e게이트웨이 벤처스, 뉴 어라 캐피털 파트너스, 버텍스 제약 창립자 조슈아 보거, 전 IBM 사장 짐 화이트허스트 등이 참여했다.
앞서 지난해 10월에는 구글과도 전략적 제휴를 맺은 바 있다.
출처 : https://www.aitimes.com/news/articleView.html?idxno=203755