[AI타임스] 구글, 손글씨를 디지털로 변환하는 AI 시스템 개발

단일 스트로크 잉크의 잉크 토큰화 (사진=구글)
구글이 손글씨 사진을 디지털 형식으로 변환하는 모델을 발표했다. 이를 통해 광학문자인식(OCR)을 넘어 손글씨 스타일을 유지하면서 자유롭게 편집 가능한 문서를 생성할 수 있게 됐다고 설명했다.
구글 러시치는 30일(현지시간) 손글씨 메모 사진에서 펜의 움직임을 추출하는 ‘잉크사이트(InkSight)’ 모델을 깃허브를 통해 공개했다.
이 모델은 OCR을 사용해 글을 텍스트 문서로 필사하는 대신, 손으로 쓴 문서를 펜 움직임인 ‘스트로크(stroke)’ 모음으로 캡처해 손으로 자유롭게 편집해 디지털 노트로 변환하는 형태다. 사용자는 손으로 쓴 디지털 노트를 검사, 수정, 완성할 수 있다.

“이상한 나라의 앨리스”의 한 페이지를 원래 형태(왼쪽)와 잉크사이트가 디지털로 변환한 후(오른쪽)로 보여준다. (사진=구글)
잉크사이트를 사용하면 필기한 내용을 스트로크 형태로 추출할 수 있다. 손글씨로 작성된 텍스트를 잉크사이트에 입력하면 펜의 움직임을 나타내는 스트로크가 추출된다. 잉크사이트는 기존의 OCR 모델을 통해 손글씨 단어를 인식한 후 스트로크로 변환하며, 이 과정에서 ‘ViT 인코더’와 ‘mT5 인코더/디코더’가 사용된다.
모델 학습에는 텍스트 이미지와 실시간 필기 궤적에서 추출된 스트로크를 토큰 형태로 변환해 입력한다. 이를 위해 전용 토크나이저를 활용, 스트로크를 토큰화한다.
구글 리서치는 3가지 모델을 훈련했으며, 그중 스몰(Small) 모델은 약 3억4000만개, 라지(Large) 모델은 약 10억개의 매개변수를 포함한다.
동일한 텍스트 이미지를 인간과 잉크사이트의 3가지 모델로 각각 추적한 후, 인간 평가자를 통해 성능을 비교하는 실험도 진행했다.
인간 평가에서 잉크사이트가 생성한 샘플의 87%가 유효한 것으로 간주됐고, 특히 67%는 인간이 쓴 필기와 구별할 수 없을 정도로 정교하다는 평가를 받았다.
또 이 시스템은 조명이 좋지 않거나 배경이 지저분하거나 심지어 부분적으로 가려진 텍스트도 처리할 수 있다고 밝혔다.
구글 리서치는 이번 연구를 “손글씨 이미지를 디지털 잉크로 변환하는 최초의 접근 방식“이라고 소개했다.
모델과 코드는 깃허브에서 다운로드할 수 있으며, 허깅페이스에서 데모로 사용해 볼 수 있다.
출처 :
https://www.aitimes.com/news/articleView.html?idxno=164808
참고 :
https://huggingface.co/spaces/Derendering/Model-Output-Playground