
알리바바가 새로운 이미지 생성 모델 ‘Z-이미지(Z-Image)’를 공개하며 돌풍을 일으키고 있다. 모델 크기는 60억 매개변수에 불과한 데, 퀄리티는 ‘나노 바나나’와 비교될 정도다. 여기에 오픈 소스로 공개됐다.
알리바바는 27일(현지시간) ▲빠른 추론 속도를 강조한 ‘Z-이미지-터보(Turbo)’ ▲기본 개발용 ‘Z-이미지-베이스(Base)’ ▲이미지 편집 특화 ‘Z-이미지-에디트(Edit)’ 등 제품군을 공개했다.
60억 매개변수(6B) 규모로 설계돼 효율적인 이미지 생성과 편집이 가능하며, 시각적 품질은 기존 200억 매개변수급 상용 모델 대비 3배 수준으로 평가된다.
Z-이미지는 일반적인 듀얼 스트림 구조와 달리, 텍스트용과 이미지용 경로를 나누지 않고 단일 스트림 확산 트랜스포머(DiT) 구조를 채택했다. 텍스트 토큰, 시맨틱 비주얼 토큰, VAE 이미지 토큰이 하나의 긴 시퀀스로 결합돼 동일한 트랜스포머 스택을 통해 처리된다.
강점은 프롬프트 강화와 추론 능력에 있다. 사용자가 입력한 텍스트를 상세하게 설명하는 것을 넘어, “세계 지식(world knowledge)”을 활용해 의미론적 정렬을 보장한다. 또, 자연스러운 조명과 풍부한 디테일을 가진 이미지를 생성한다.
복잡한 명령 이해, 멀티모달 편집, 중국어-영어 이중 언어 텍스트 렌더링까지 지원해, 기존 AI 이미지 모델의 텍스트 처리 한계를 극복했다.

Z-이미지-터보는 실제 배포용으로 설계된 모델로, 8번의 샘플링 단계만으로 고해상도의 현실적 이미지를 생성한다.
일반적으로 샘플링 단계를 줄이면 품질이 저하되지만, 터보는 대형 모델에 맞먹는 품질을 유지하면서 ‘H800’ GPU에서 1초 미만 추론 속도를 달성한다. VRAM 사용량은 16GB 이하에 불과, 엔비디아 ‘RTX 30’ 시리즈 같은 소비자 GPU에서도 원활하게 구동된다.
Z-이미지-베이스는 기본 체크포인트로, 연구자와 개발자가 자유롭게 미세조정하고 변형하며 재활용할 수 있는 원본 모델이다.
Z-이미지-에디트는 이미지 편집 전용으로, 이미지-투-이미지 워크플로우와 이중 언어 편집 명령을 처리하며, 세밀한 자연어 프롬프트를 충실히 따른다는 설명이다.

알리바바의 자체의 ‘AI 아레나’ 인간 선호도 평가에서 Z-이미지-터보는 더 큰 모델과 경쟁하면서도 상위권 점수를 기록했다.
이보다는 사용자들의 반응이 폭발적이다. 챗GPT와 나노 바나나에서 이미 유행했던 ‘피규어 이미지 만들기’ 등에서는 상당한 퀄리티를 보인다는 평이다.
현재 Z-이미지 모델은 허깅페이스와 모델스코프에서 무료로 사용 가능하다.
Z-이미지-터보는 이미 공개됐고, Z-이미지-베이스와 Z-이미지-에디트도 곧 공개될 예정이다.
박찬 기자
출처 : https://www.aitimes.com/news/articleView.html?idxno=204416