[AI타임스] “챗GPT로 게임 ‘레드 데드 리뎀션 2′ 클리어…’AI 에이전트’ 가능성 확인”
GPT-4V로 게임 ‘RDR2’를 플레이한 예 (사진=arXiv)
‘GPT-4V’를 활용해 화면과 사운드를 이해하고 컴퓨터 마우스와 키보드를 조작, 세밀한 조정이 필요한 게임 ‘레드 데드 리뎀션 2(RDR2)’ 작동에 성공한 사례가 등장했다. 연구자들은 단순 게임 조작을 넘어 인공지능(AI) 에이전트로서의 가능성을 보여줬다고 설명했다.
톰스하드웨어는 15일(현지시간) 중국과 싱가포르 연구진이 최근 AI로 RDR2를 플레이하도록 하는 연구 결과를 온라인 아카이브에 게재했다고 보도했다. 논문 제목은 ‘GCC(일반 컴퓨터 컨트롤): RDR2 플레이를 위한 멀티모달 에이전트 연구’다.
GCC는 AI가 게임 내부에 관여하거나 API를 사용하지 않고, 인간처럼 외부에서 게임을 관찰하고 플레이하는 방식을 말한다.
이를 가능하게 하기 위해 비전 기능과 음성 인식이 가능한 GPT-4V를 활용했다. 또 GPT-4V를 게임과 연결하고 컨트롤할 수 있도록 ‘크래들(CRADLE)’이라는 6개의 모듈 에이전트를 동원했다.
연구원들은 RDR2를 대상으로 한 것에 대해 “가장 까다로운 컴퓨터 작업을 대표하고, 그런 가상 환경에서 우리 프레임워크의 성능 경계를 평가할 수 있게 해주는 복잡한 블랙박스 제어 시스템을 가지고 있다”라고 이유를 밝혔다.
실제로 이 게임은 플레이어가 탐색할 수 있는 풍부한 환경과 다양한 상황을 제공한다. 또 대화, 고유 아이콘, 게임 내 프롬프트 및 지침과 같은 UI 요소를 갖추고 있어, AI 학습에 좋다는 평이다.
또 연구원들은 AI의 마우스와 키보드 작동이 다른 소프트웨어보다 GCC에 더 효과적이라고 밝혔다.

크래들 개요도 (사진=arXiv)
그 결과 연구진은 크래들이 RDR2의 주요 스토리라인에 따라 세계를 탐색하고 미션을 완료하며 게임을 진행했다고 밝혔다. 메인 스토리라인은 물론 개방형 미션의 대표적인 과제까지 마쳤다는 설명이다. 특히 “크래들은 메인 스토리라인의 모든 작업을 일관되게 완료할 수 있다”라고 주장했다.
하지만 빠르게 진행되는 총격전이나 복잡한 실내를 탐색하는 미션, 긴 지평선이 있는 개방형 탐색 등에서는 어려움을 겪은 것으로 알려졌다. 이런 문제 중 일부는 GPT4-V의 탓이라고 밝혔다. 즉 “GPT-4V의 공간-시각 인식 능력은 정밀하고 세밀한 제어를 하기에는 부족하다”라는 주장이다.
또 GPT4-V는 게임 내 고유 아이콘 등 영역별 개념과 미니맵 이해, 일반적인 장애물 등을 파악하는 데 애를 먹었다고 전했다.
이번 연구 결과는 향후 도입될 AI 에이전트와 밀접한 연관이 있다. AI 에이전트는 사람을 대신해 마우스와 키보드를 사용해 웹을 탐색하고 각종 애플리케이션을 조작해야 하기 때문이다.
또 AI 에이전트의 원활한 작동을 위해서는 추론 능력은 물론 비전 기능이 더 정교해져야 한다는 것을 강조했다.
출처 :
https://www.aitimes.com/news/articleView.html?idxno=158836