[AI타임스] 메타, 강력한 동영상 생성 AI ‘무비 젠’ 공개…”오픈 소스 공개 대신 인스타그램에 통합”
메타가 오픈AI의 ‘소라’에 맞설 동영상 생성 인공지능(AI) 모델을 공개했다. 영상은 물론 오디오를 동시에 생성하며, 영상 중 일부분만 편집할 수 있는 등 강력한 기능을 갖추고 있다. 이 제품은 별도 출시 없이, 내년 인스타그램 등 메타의 플랫폼을 통해 서비스될 예정이다.
메타는 4일(현지시간) 홈페이지를 통해 ‘무비젠(Movie Gen)’이라는 동영상 생성 모델을 공개했다.
메타는 이번 연구가 2022년 공개한 메이크 어 신( Make-A-Scene)과 메이크 어 비디오(Make-A-Video) 등을 시작으로 라마 이미지 모델 등을 거치는 등 몇년에 걸친 노하우를 반영하고 있다고 설명했다.
이를 통해 가장 진보적이고 몰입적인 스토리텔링 모델을 만들었다고 주장했다. 일반 사용자는 물론, 전문적인 영상 제작자와 편집자, 심지어 할리우드 영화 제작자까지도 유용하게 사용할 수 있다고 강조했다.
기능은 이제까지 등장한 영상 모델 중 가장 강력한 편으로 꼽힌다. 최대 16FPS로 16초짜리의 사실적이고 개인화된 HD 비디오와 48kHz 오디오를 제작할 수 있으며, 비디오 편집 기능도 제공한다.
주요 기능으로는 ▲비디오 생성 ▲개인화된 비디오 ▲정밀한 비디오 편집 ▲오디오 생성 등 네가지를 들었다.

우선 텍스트 프롬프트를 통해 고화질(HD) 비디오를 제작할 수 있다. 300억개의 매개변수 트랜스포머 모델을 통해 1080p 해상도로 최대 16초 길이의 영상을 생성한다. AI는 프롬프트 관리 기능을 통해 카메라 모션, 객체 상호 작용, 환경 물리학을 포함한 비디오 생성의 다양한 측면을 처리할 수 있다.
사용자가 자신이나 다른 사람의 이미지를 업로드, AI 생성 비디오에 등장시킬 수 있는 개인화된 비디오 기능도 제공한다. 개인의 모습을 유지하면서 다양한 프롬프트로 맞춤형 콘텐츠 생성이 가능하다.

모델 발표에 맞춰 마크 저커버그 메타 CEO도 인스타그램에 자신이 운동하는 영상을 무비 젠으로 생성한 ‘재인화된 비디오’를 공개했다. 그는 사용 중인 레그 프레스 머신은 네온 사이버펑크 버전, 고대 로마 버전, 불타는 황금 버전 등으로 변신한다.
사용자가 비디오 내 특정 요소를 수정할 수 있는 고급 비디오 편집 기능도 포함돼 있다. 객체나 색상과 같은 부분적인 변경은 물론, 배경 교체와 같은 광범위한 수정을 모두 텍스트로 지정할 수 있다.
비디오 외에도 130억개의 매개변수 오디오 생성 모델을 통합했다. 이를 통해 시각적 콘텐츠와 완벽하게 일치하는 사운드 효과나 배경음, 동기화된 오디오를 생성할 수 있다. 특히 발자국 소리나 바람이 부는 소리와 같은 ‘폴리(Foley) 사운드’ 생성도 가능하다.
인간 평가자를 통한 선호도 조사에서는 일관성이나 동작의 자연스러움과 같은 다양한 속성에서 현재 가장 진보된 모델로 알려진 런웨이의 ‘젠 3’, 루마의 ‘드림머신’, 콰이쇼우의 ‘클링’, 오픈AI의 ‘소라’ 등을 모두 앞선 것으로 나타났다.

메타는 모델을 훈련하기 위해 사용이 허가됐거나 라이선스를 획득한 1억개의 비디오와 10억개의 이미지를 사용했으며, 특히 비디오를 통해 물리적인 현실 세계에 대해 학습했다고 밝혔다. 하지만 상세한 데이터 출처는 공개하지 않았다.
기술적으로는 기존 이미지 생성 모델을 작동하던 확산 모델(Diffusion Model)과 대형언어모델(LLM), 그리고 ‘플로우 매칭(Flow Matching)’이라는 새로운 기술을 결합했다고 밝혔다.
플로우 매칭은 시간 경과에 따른 데이터셋 분포의 변화를 모델링하는 것으로, 비디오의 다음 장면을 유추할 때 샘플의 이동 속도를 계산해 자연스러운 다음 동작을 만들어내는 기술이다. 이를 통해 고품질의 비디오를 만들어 낼 수 있으며, 인간의 눈에도 더 자연스러운 결과가 나온다는 설명이다.
무비 젠은 기존 메타의 ‘라마’ 시리즈처럼 오픈 소스로 공개될 가능성은 없는 것으로 알려졌다. 대신, 메타 AI처럼 메타 팰랫폼에 통합된다.
메타 대변인은 “현재는 내부 직원과 일부 영화 제작자를 포함한 소수의 외부 파트너에게만 제공되고 있으며, 오픈 소스로 출시될 가능성은 낮다”라며 내년에 인스타그램이나 왓츠앱, 메신저 등 메타 플랫폼에서 서비스될 예정이라고 말했다.
해결할 문제도 남은 것으로 전해졌다. 코너 헤이즈 메타 생성 AI 부사장은 “현재 비디오를 생성하는 데에는 십분이 넘개 걸린다”라며 “휴대폰에서 이를 사용할 가능성이 높은 일반 소비자에게는 너무 긴 시간”이라고 밝혔다.
그러나 그는 “안전과 책임에 관한 정말 중요한 문제들을 해결하고 있다”라며 향후 발생할 수 있는 딥페이크나 선정적이고 폭력적인 영상을 제작하지 못하는 데 가장 중점을 두고 작업 중이라고 전했다.
이번 메타의 젠 무비 출시는 동영상 생성 AI에서 기존 제품들과 경쟁하는 것을 넘어 메타의 하드웨어에도 통합될 가능성이 크다.
저커버그 CEO는 자난달 열린 ‘커넥트’ 행사에서 “AI가 스마트 안경과 같은 미래형 웨어러블에 더 큰 역할을 할 것이라고 믿는다”라고 말했다.
임대준 기자
출처 : https://www.aitimes.com/news/articleView.html?idxno=163947