[AI타임스] 물리법칙 따라 가상인간-물체 움직이는 AI 등장…VR·게임·로봇 개발 돌파구
텍스트 설명으로 인간-객체 상호작용 생성하는 ‘초이스’ 공개

3D 가상 공간에서 현실 세계의 인간과 객체 간 움직임을 그대로 반영, 생성하는 인공지능(AI)이 등장했다. 이를 통해 텍스트 설명만으로 메타버스, 게임, 애니메이션 등 3D 공간에서 가상 인간과 물체 간에 자연스럽고 동기화된 동작을 생성할 수 있게 됐다.
벤처비트는 8일(현지시간) 스탠포드대학교와 메타 연구진이 3D 그래픽 공간 내에서 인간과 사물과 상호 작용하는 방식을 이해하고 예측하여 사실적인 동작을 생성하는 AI 도구 ‘초이스(CHOIS)’를 공개했다고 보도했다. 초이스는 ‘컨트롤 가능한 인간-객체 상호작용 합성(Controllable Human-Object Interaction Synthesis)’의 준말이다.
이에 따르면 초이스는 조건부 확산 모델(conditional diffusion model) 기술을 사용해 3D 환경에서 “테이블을 머리 위로 들어 올리고, 걷고, 테이블을 내려놓는다”와 같은 인간과 객체 간의 상호작용 동작을 생성한다.
조건부 확산 모델은 동작의 상세한 시퀀스를 시뮬레이션할 수 있는 생성 모델의 일종으로, 인간이 의도한 이미지를 생성할 수 있게 한다. 예를 들어, 강아지 이미지를 생성하고 싶다면 확산 모델이 강아지가 아닌 이미지를 생성하려고 할 때마다 판별자(Classifier)의 손실 함수가 큰 그래디언트(Gradient)를 보내 방향을 틀어주는 식이다.
초이스는 원하는 작업에 대한 텍스트 설명과 함께 인간 및 물체 위치의 초기 상태를 주면, 조건부 확산 모델을 기반으로 작업 완료에 이르는 일련의 동작을 생성한다.
예를 들어 램프를 소파 가까이 옮기라는 지시를 받으면 초이스는 이 지시를 이해, 인간 아바타가 램프를 집어 소파 근처에 놓는 현실적인 애니메이션을 만들어낸다.
이런 애니메이션을 생성하기 위해 웨이포인트(waypoint)와 텍스트 설명을 사용하는 것이 초이스의 특징이다. 웨이포인트는 물체의 궤적에서 핵심 지점을 나타내는 마커 역할을 해 모션이 물리적으로 그럴듯할 뿐만 아니라 텍스트 입력에 의해 설명된 목표와 일치하도록 보장한다.
특히 이 시스템은 물체를 만지는 손과 같은 접촉 지점이 정확하게 표현되고 물체의 움직임이 인간 아바타가 가하는 힘과 일치하도록 보장한다는 점이 획기적이다. 더불어 훈련 및 생성 단계에서 판별자가 그래디언트를 발생하는 특수한 손실 함수와 안내 용어를 통합해 물리적 제약을 적용한다. 이를 통해 인간과 같은 방식으로 물리적 세계를 이해하고 상호 작용할 수 있다는 설명이다.
초이스를 사용하면 AI가 자연어 지시를 해석하여 사실적인 인간-객체 상호 작용을 생성할 수 있기 때문에 컴퓨터 그래픽, 게임과 가상현실 분야에서 복잡한 장면을 애니메이션화하는 데 필요한 시간과 노력을 획기적으로 줄일 수 있다.
또 물리적 공간에서 다양한 작업을 이해하고 수행하는 능력이 중요한 로봇 공학 분야에도 혁신적인 영향을 미칠 수 있다.
AI의 경우에도 초이스는 복잡한 작업에서 보다 유용한 보조자 역할을 하는 AI 시스템으로 이어질 수 있으며, 인간 지시의 ‘무엇’뿐만 아니라 ‘어떻게’를 이해하고 이전에는 볼 수 없었던 수준의 유연성으로 새로운 과제에 적응할 수 있다.
연구진은 “의미 인식, 롱 호라이즌 강화 학습, 인간-객체 상호 작용을 합성하는 것은 현실적인 인간 행동을 시뮬레이션하는 데 중요하다”라며 “이 연구에서 우리는 3D 장면의 언어 설명에 따라 동기화된 객체 모션과 인간 모션을 생성하는 어려운 문제를 해결했다”라고 전했다.
박찬 기자
출처 : https://www.aitimes.com/news/articleView.html?idxno=155782