블록버스터급 영상을 만들어내는 바이트댄스의 새로운 AI 영상 생성 모델이 주목받고 있다. 개인 창작자는 물론 영화 산업 전반에 이르기까지 콘텐츠 제작 방식 자체가 근본적으로 달라질 수 있다는 전망이 나온다.
바이트댄스는 8일(현지시간) AI 영상 생성 모델 ‘시댄스 2.0(Seedance 2.0)’를 공개했다.
기술 소개서는 나오지 않았지만, 일부 초기 테스터들은 시댄스 2.0가 텍스트, 이미지, 오디오 입력만으로 최대 2분 길이의 고해상도 영상을 자동으로 제작할 수 있다고 밝혔다.
시댄스 2.0은 최대 1080p, 일부 테스트에서는 2K 해상도까지 지원하며, 여러 컷으로 구성된 네이티브 멀티샷 영상 생성이 가능하다. 장면 전환을 따로 편집할 필요 없이 하나의 프롬프트로 완성도 높은 스토리 영상이 만들어진다.
사실적인 물리 효과, 음악 비트에 맞춘 모션, 대사·효과음·배경음이 포함된 네이티브 오디오를 동시에 생성한다.
특히 주목받는 기능은 8개 이상의 언어에서 음소 단위까지 정확하게 맞아떨어지는 립싱크와 다국어 음성 지원이다. 기존 AI가 ‘영상 따로, 소리 따로’였다면, 시댄스 2.0은 생성 단계부터 소리와 영상을 함께 계산한다. 이는 립싱크의 정확도를 물리적으로 보장하는 획기적인 방식이다.
여기에 최대 12개의 레퍼런스 파일을 활용해 시작·종료 프레임, 이미지, 오디오 등 멀티모달 요소를 정밀하게 제어할 수 있도록 설계된 것으로 알려졌다. 이는 다른 모델과 가장 큰 차별점으로 꼽힌다.
영상 생성 속도는 이전 대비 30% 개선됐으며, 생성 가능한 영상 길이는 최대 3배까지 늘어났다. 일부 소개 자료에서는 체감 성능이 기존 대비 최대 10배 향상됐다는 평가도 나왔다.
초기 테스터들이 공개한 영상에는 ‘드래곤볼 Z’를 실사판으로 제작한 전투 장면, ‘아케인’ 스타일의 사이버펑크 영상, 러시아어 대사가 오가는 전쟁 영화 장면 등 기존에는 대규모 제작비가 필요한 콘텐츠들이 포함돼 있다.
X 게시물 4(러시아어 대사가 오가는 전쟁 영화 장면)
이처럼 시댄스 2.0은 더 좋은 영상을 만드는 수준을 넘어, 제작 공정 자체를 통합한 것으로 평가받고 있다.
하지만, 현재는 중국에서만 이용 가능하다. 모델 구조나 기술 보고서는 아직 공개되지 않았다. 일부에서는 설 연휴 직전 본격 출시될 것으로 내다보고 있다.
그럼에도 초기 사용자들이 만든 영상만으로도 “콘텐츠 제작의 미래”라는 평가를 받을 만큼 파급력이 크다는 반응이 이어지고 있다.
한편, 영화 업계에서는 기대와 우려가 동시에 제기됐다. 일부 영화 제작자들은 시댄스 2.0이 비교적 저렴한 비용으로 고품질 시각 효과와 장면을 만들어낼 수 있어, 장기적으로는 감독, 배우, 제작진의 역할을 대체할 수 있다는 점을 걱정하고 있다.
특히 지난주에는 콰이쇼우가 ‘클링 3.0’을 내놓으며, AI 영상을 한 단계 끌어올렸다는 평을 받았다. 이처럼 AI가 시나리오를 입력받아 곧바로 완성도 높은 영상으로 구현하는 시대가 현실로 다가오고 있다는 것이 중론이다.
박찬 기자
출처 : https://www.aitimes.com/news/articleView.html?idxno=206577