바이트댄스가 사진 한장으로 영화 속 배우들의 연기를 그대로 재현하는 동영상 생성 인공지능(AI) 도구를 공개했다. 특히 자회사인 틱톡의 방대한 비디오를 학습, 다른 모델보다 뛰어난 성능을 발휘한다는 것을 강조했다.
바이트댄스는 7일(현지시간) 얼굴 사진과 연기 영상를 입력하면 사진 속 인물이 영상과 똑같은 모습으로 말하는 비디오 생성 도구 ‘X-포트레이트 2(X-Portrait 2)’를 공개했다.
즉, 사진 한장으로 유명 영화의 장면을 그대로 재현한 영상을 생성할 수 있다. 사진 속 인물이 원본 영상의 섬세한 표정까지 포착하며, 훈련된 배우처럼 두려움과 분노, 기쁨 등의 감정을 동일한 수준의 설득력 있는 디테일로 표현할 수 있게 됐다는 설명이다. 물론 사진 속 인물의 정체성과 특성은 그대로 유지된다.
사진 한장으로 동영상을 만드는 애니메이션 AI 소프트웨어는 이전에도 출시됐다. 하지만 기존 도구는 얼굴 특정 지점을 추적하고 이를 적용하는 전통적인 방법을 사용한다. 즉, 점을 연결해 표정을 만드는 방식이다.
반면 X-포트레이트 2는 전체적인 얼굴 움직임을 관찰하고 학습한다. 따라서 빠른 말투나 다양한 각도에서 촬영된 얼굴 근육의 자연스러운 흐름, 미세한 눈 움직임, 그리고 인간 얼굴의 독특한 표현력을 만들어내는 복잡한 표정까지 포착한다.
이를 위해 바이트댄스는 대규모 데이터셋을 기반으로 훈련, 입력된 미세한 표정까지 인코딩하는 ‘표정 인코더 모델’을 개발했다. 이는 확산 모델과 결합돼 유동적이고 표현력 있는 영상을 생성한다.
배우의 미세한 얼굴 표정을 전달하는 것뿐만 아니라, 입술을 내밀거나, 혀를 내밀거나, 볼을 부풀리거나 찡그리는 등의 어려운 표정도 처리할 수 있다. 표정 인코더를 훈련할 외형과 움직임을 분리, 인코더가 연기 영상에서 표정 관련 정보에만 집중하도록 했다.