(사진=스태빌리티 AI)
(사진=스태빌리티 AI)

스태빌리티 AI가 시간에 따라 움직이는 3D 객체를 보여주는 4차원 비디오 생성 모델을 공개했다. 폭(x), 높이(y), 깊이(z) 및 시간(t) 등 4가지 차원에서 움직이는 3D 객체를 볼 수 있다는 설명으로, 이를 통해 3차원 비디오 클립 하나로 8개의 다른 각도 비디오를 생성할 수 있다.

벤처비트는 24일(현지시간) 스태빌리티 AI가 시간에 따라 움직이는 객체의 3D 회전 비디오를 생성하는 ‘스테이블 비디오 4D(Stable Video 4D)’를 공개했다고 소개했다.

이번 모델은 지난 3월 출시한 ‘스테이블 비디오 3D’를 기반으로 한다. 스테이블 비디오 3D는 대상 객체를 촬영한 이미지를 기반으로 고정된 객체의 360도 3D 회전 비디오를 생성한다.

여기에 스테이블 비디오 4D는 이를 8개의 뷰 포인트 비디오로 확장하고, 시간에 따라 움직이는 객체의 동작을 처리할 수 있도록 기능을 추가했다.

이를 위해 정지 이미지를 촬영해 동작을 포함한 사실적인 비디오로 변환하는 ‘스테이블 비디오 디퓨전(Stable Video Diffusion)’ 모델과 스테이블 비디오 3D 모델을 결합, 큐레이팅된 동적 3D 객체 데이터셋으로 미세조정했다.

스테이블 비디오 4D 모델은 비디오를 입력하면, 8개의 각도에서 5 프레임 비디오를 약 40초 안에 생성한다.

이후 전체를 4D로 최적화하는 데, 전체 프로세스는 약 20~25분이 걸린다.

스테이블 비디오 4D 파이프라인 (사진=스태빌리티 AI)
스테이블 비디오 4D 파이프라인 (사진=스태빌리티 AI)

이닌 다양한 응용이 가능하다. 바룬 잠파니 스태빌리티 AI 3D 연구 팀장은 “스테이블 비디오 4D는 영화 제작, 게임, 증강현실(AR), 가상현실(VR) 등 임의의 카메라 각도에서 동적으로 움직이는 3D 객체를 볼 필요가 있는 사용 사례에서 사용되고 있다”라고 말했다.

또 “현재는 몇초 동안의 단일 객체 비디오를 처리할 수 있지만, 우리는 이를 더 긴 비디오와 더 복잡한 장면으로 일반화할 계획”이라고 덧붙였다.

스테이블 비디오 4D 모델은 현재 허깅페이스에서 연구 목적으로 사용할 수 있다.