[AI타임스] 알리바바, 사진 한장으로 풀모션 영상 생성하는 AI 공개
“이제까지 등장한 모델 중 최고”…딥페이크 악용 가능성 지적

알리바바가 인물이나 캐릭터 사진을 풀모션 동영상으로 변환하는 인공지능(AI) 도구를 선보였다. 이제까지 등장한 캐릭터 애니메이션 생성 AI 도구 중 최고 수준이라는 평가다.
테크크런치는 4일(현지시간) 알리바바 지능형 컴퓨팅 연구소가 사진을 애니메이션으로 변환하는 AI 프레임워크 ‘애니메이트 애니원(Animate Anyone)’를 공개했다고 보도했다.
이에 따르면 애니메이트 애니원은 인간의 몸짓과 움직임을 이해, 확산 모델(Diffusion Model)을 활용해 다양한 인간과 캐릭터에 생명을 불어넣어 똑같은 동작을 펼치는 비디오를 합성한다.
이를 위해 먼저 캐릭터의 입력과 애니메이션의 기준이 되는 영상을 준비해야 한다. 입력 이미지에서 캐릭터의 특징이나 포즈와 같은 세부 사항을 추출하고, 참조 비디오에서 캐릭터가 흉내 내기를 원하는 움직임을 골라낸다.
그다음 AI는 참조 비디오 프레임의 움직임과와 표정을 추출, 캐릭터 이미지에 매핑해 움직임을 합성한다.
마지막 단계에서 이런 애니메이션 프레임을 연결, 연속적인 비디오를 만든다.
예를 들어 드레스를 입은 모델 사진과 같은 캐릭터 이미지에서 얼굴 특징, 패턴, 포즈와 같은 세부 사항을 추출하고, 모델의 움직임이나 포즈에 따른 이미지를 생성해 비디오를 만드는 식이다.
특히 생성된 비디오에서 모델 의상의 모양이나 무늬, 머리카락 등이 움직이는 도중에도 뭉개지지 않고 원형을 그대로 살리며 자연스럽게 표현된다. 기존 모델에서는 이 부분에서 환각이 생기는 경우가 많았다.
애니메이트 애니원은 현재 초기 단계이기 때문에 완벽하지는 않다. 특히 확산 모델의 문제인 눈과 손의 움직임에서는 더욱 그렇다. 움직임이 클수록 표현에 문제가 생길 수 있다.
완벽한 수준으로 끌어 올리기 위해서는 아직 많은 작업이 남아 있지만, 기존 디스코(DisCo)나 드림포즈(DreamPose) 등과 비교하면 크게 발전했다는 평가다.
특히 비디오 게임 개발자나 패션 디자이너, 영화 제작자 등이 비용과 시간을 줄이는 데 큰 도움이 될 수 있다.
반면 이 기술은 사진 한장만 있으면 무엇이든 표현할 수 있다는 점에서 악의적인 딥페이크에 활용될 수 있다는 우려도 나온다.
알리바바는 애니메이트 애니원을 오픈 소스로 깃허브에 공개될 예정이지만, 구체적인 출시 일정은 밝히지 않았다.
박찬 기자
출처 : https://www.aitimes.com/news/articleView.html?idxno=155678