[AI타임스] ‘스테이블 디퓨전 3’ 공개…”소라와 비슷한 트랜스포머 아키텍처 도입”

스태빌리티 AI가 차세대 이미지 생성 인공지능(AI) 모델을 공개했다. 최근 오픈AI가 내놓은 동영상 생성 AI ‘소라(Sora)’와 비슷한 ‘확산 트랜스포머(Diffusion Transformer)’ 아키텍처를 도입한 것이 특징이다.
벤처비트는 22일(현지시간) 스태빌리티 AI가 새로운 아키텍처 기반 차세대 이미지 생성 AI 모델 ‘스테이블 디퓨전 3’를 오픈 소스로 공개했다고 보도했다. 현재 프리뷰 단계로, 대기자 명단을 받고 있다.
이에 따르면 스테이블 디퓨전 3는 지난해 7월 출시된 ‘SDXL’에 비해 품질과 정확도가 개선됐다. 다양한 장치에서 실행할 수 있도록 8억~80억 매개변수의 다양한 크기의 모델을 제공한다. 원하는 이미지를 생성할 수 있도록 미세조정 기능도 지원한다.
또 스테이블 디퓨전 3은 오픈AI의 비디오 생성 AI 모델 ‘소라’와 유사한 새로운 유형의 아키텍처 ‘확산 트랜스포머(diffusion transformer)’를 기반으로 구축됐다.
확산 트랜스포머는 전통적인 이미지 생성 AI 모델인 확산 모델에 사용되는 U-넷(U-Net) 백본을, 텍스트 생성 모델의 기반이 되는 트랜스포머로 대체한 새로운 아키텍처다. 확산 트랜스포머 아키텍처는 컴퓨팅을 더 효율적으로 사용할 수 있으며, 다른 형태의 확산 이미지보다 고품질의 이미지를 생성할 수 있다.
더불어 AI 모델을 만드는 기술인 ‘플로우 매칭(flow matching)’을 활용, 생성 모델을 빠르게 학습할 수 있다. 이를 통해 구조화되지 않은 데이터, 특히 다양한 이미지로부터 학습할 때 선택할 수 있는 가장 최적의 경로를 모델에 제공함으로써 쉽게 일반화할 수 있다는 설명이다.

특히 생성 이미지에서 단어를 정확하게 생성하고 철자를 더 잘 만드는 타이포그래피( typography)가 크게 개선됐다.
에마드 무스타크 스태빌리티 AI CEO는 “이는 확산 트랜스포머 아키텍처와 추가 텍스트 인코더 덕분”이라며 “이제 일관적인 스타일과 마찬가지로 완전한 문장도 가능하다”라고 주장했다.
나아가 스태빌리티는 스테이블 디퓨전 3이 향후 비디오 생성, 3D 이미지 생성 등 새로운 모델의 기반이 될 수 있을 것으로 전망했다.
무스타크 CEO는 “우리는 어디에서나 사용할 수 있고 어떤 요구에도 적응할 수 있는 오픈 소스 모델을 만든다”며 “스테이블 디퓨전 3 다양한 크기의 모델 시리즈이며, 비디오, 3D 등을 포함한 차세대 시각적 모델의 개발을 뒷받침할 것이다”고 말했다.
한편 무스타크 CEO는 며칠 전 샘 알트먼 오픈AI CEO가 ‘소라’로 생성한 동영상에 대해 “당신은 마술사”라는 찬사를 보낸 바 있다.
박찬 기자
출처 : https://www.aitimes.com/news/articleView.html?idxno=157455