[매일경제] 마이크로소프트, ‘대화하는 얼굴’ 생성 AI ‘VASA-1’ 공개

by 문선 최 · Published 2024-04-19 · Updated 2024-04-23

모리슨 “현실적인 입모양 동기화”
MS 연구팀만 이용 가능, 공개 미정
실감나는 AI 특화 립싱크와 얼굴 표현

마이크로소프트는 사용자의 사진과 음성 샘플을 업로드하면 실시간으로 대화하는 얼굴 애니메이션을 생성할 수 있는 새로운 인공지능(AI) 모델 ‘VASA-1’을 발표했다고 19일 밝혔다.

톰스가이드에 따르면 해당 기술은 한 장의 초상화 사진과 오디오 파일만으로 고도의 리얼리즘을 구현한 입모양 동기화와 얼굴 움직임을 담은 영상으로 변환한다.

VASA-1은 현재 연구용 프리뷰 단계로, 마이크로소프트 연구팀 외에는 아직 사용해볼 수 없다.

그러나 공개된 데모 영상은 이미 품질 면에서 높은 수준을 보여주고 있으며, 기존 립싱크 기술과 비교하여 입 주위의 잔상 없이 자연스러운 움직임을 구현해내고 있다.

이 모델은 가상 캐릭터의 애니메이션화뿐만 아니라 실제 사진을 대상으로도 작동하는 가능성을 보여준다.

아울러 VASA-1은 고정된 전면 이미지가 아닌 다양한 방향의 샷에도 적용이 가능하며, 사용자의 눈동자 방향, 머리의 거리, 심지어 감정까지 입력으로 받아 표현할 수 있는 높은 조절 능력을 갖췄다.

이 기술의 주요 사용 사례로는 게임 내 AI 구동 NPC의 자연스러운 립싱크 개선, 소셜 미디어용 가상 아바타 제작, AI 기반 영화 제작 등이 있을 수 있다.

마이크로소프트 연구팀은 VASA-1이 노래에 맞춰 완벽한 입모양 동기화를 보여줬으며, 심지어 ‘모나리자’와 같은 이미지 스타일에서도 문제없이 작동했다고 밝혔다.

현재 이 모델은 512×512 픽셀 이미지를 초당 45프레임으로 생성할 수 있으며, 이 작업은 데스크탑급 엔비디아 RTX 4090 GPU를 사용해 약 2분이 소요된다.

연구 단계에 머물러 있는 이 기술이 개발자에게나 대중에게 공개될 가능성은 아직 미지수이다.

이상덕 기자