[매일경제] 구글의 바나나, 이미지 이해도 잘 한다…통합모델 ‘비전 바나나’ 등장
생성 모델인 ‘나노 바나나’ 조정해 활용
사람·사물 구분부터 장면 깊이 추정까지 척척
![구글 딥마인드 연구진이 발표한 이미지 생성 및 이해 모델 ‘비전 바나나’ [출처 = 구글]](https://imgnews.pstatic.net/image/009/2026/04/26/0005671406_001_20260426143006760.png?type=w860)
구글 딥마인드 연구진이 발표한 이미지 생성 및 이해 모델 ‘비전 바나나’ [출처 = 구글]
기존에는 물체의 깊이를 추정하는 작업 등 시각적인 이해를 위해서 각 작업에 특화된 비생성 AI를 활용해 왔는데, 이제는 생성형 AI로도 이같은 기능을 한 번에 구현할 수 있음을 보여준 사례다.
26일 AI 업계에 따르면 구글 딥마인드는 최근 나노 바나나를 활용해 이미지 생성 능력과 이해 능력을 모두 갖춘 ‘비전 바나나’ 기술을 공개했다.
비전 바나나는 이미지를 입력하면 서로 다른 사물을 다른 색으로 표시하는 작업부터 여러 개의 농구공처럼 같은 사물도 각각 구분하는 작업, 사진 속 물체의 깊이 추정 등을 모두 수행하는 통합 모델이다.
예를 들어 바닷가에 많은 사람이 모여있는 사진을 넣은 다음, 앉아 있는 사람과 걷고 있거나 서있는 사람, 가로등을 각각 다른 색상으로 구분해 달라고 하면 사진 속 객체를 분석해 작업을 진행하는 식이다.
![구글의 ‘비전 바나나’를 활용해 왼쪽 이미지 속 객체를 RGB 값으로 구분해낸 결과물(오른쪽) [출처 = 구글 딥마인드 웹사이트 캡처]](https://imgnews.pstatic.net/image/009/2026/04/26/0005671406_002_20260426143006812.png?type=w860)
구글의 ‘비전 바나나’를 활용해 왼쪽 이미지 속 객체를 RGB 값으로 구분해낸 결과물(오른쪽) [출처 = 구글 딥마인드 웹사이트 캡처]
비전 바나나의 특징은 전통적인 시각 이해 기법이 아닌 이미지 생성 모델인 나노 바나나를 활용했다는 점이다. 기존에는 사람과 물체를 구분하는 AI를 위해서는 사람이 직접 구분한 데이터 등을 기반으로 학습해 구분에 특화된 비전 모델을 만들어 사용했다.
대신 구글 딥마인드 연구진은 “이미지를 생성하는 작업 또한 일종의 사전 학습 역할을 수행할 것”이라는 가정에서 출발해 나노 바나나 모델을 조정함으로써 시각 이해를 갖춘 통합 모델로 만들었다. 최근 이미지 생성 모델이 매우 복잡하고 현실과 유사한 시각적인 요소를 생성해내는 수준으로 발전했기 때문에, 시각적인 세계를 이해하는 데에도 생성 모델을 활용할 수 있다고 본 것이다.
이렇게 탄생한 비전 바나나는 사진을 주면 프롬프트에 맞게 해당 사진을 RGB 값으로 변환된 이미지를 출력한다.
고양이 사진을 넣고 고양이의 귀만 특정 RGB 값으로 칠해달라고 하면, 이미지가 다시 생성되면서 기존의 사진 대신 RGB 값으로 표시된 이미지가 만들어진다. 색으로 표현된 결과 이미지를 만들면서 각 요청의 작업을 처리하는 것이다.
구글 딥마인드에 따르면 이번 비전 바나나는 주요 2D 이해·3D 이해 벤치마크에서 기존 분야별 전문 모델과 유사하거나 뛰어난 성능을 보였다.
AI 업계에서는 이미지 생성 AI가 이제는 정교한 이미지 분석에도 활용될 수 있는 수준으로 발전했음을 보여주는 사례라는 평가가 나온다.
다만 비전 바나나는 아직 구글 딥마인드의 실험 프로젝트로, 상용화한 단계는 아니다. 연구진은 기술 보고서에서 “나노 바나나 같은 생성 모델을 활용하는 것은 기존의 경량 특화 모델보다 훨씬 많은 컴퓨팅 연산량을 요구한다”며 “상용화를 위해서는 속도 향상과 비용 절감이 필수적”이라고 설명했다.