[BylineNetwork] 이미지만 보고 현실 3D 세계 ‘상상’해 추론하는 ‘마인드저니’
2D 이미지로 3차원 공간(3D)을 ‘상상’해 탐색할 수 있도록 지원하는 새로운 AI 에이전트 프레임워크 ‘마인드저니’가 공개됐다. 기존 시각언어모델(VLM)이 공간을 전체적으로 이해하지 못하는 한계를 극복할 수 있다고 연구진은 강조했다. 마이크로소프트는 20일 AI가 “오른쪽 소파에 앉아 의자를...
by OneLabs
2D 이미지로 3차원 공간(3D)을 ‘상상’해 탐색할 수 있도록 지원하는 새로운 AI 에이전트 프레임워크 ‘마인드저니’가 공개됐다. 기존 시각언어모델(VLM)이 공간을 전체적으로 이해하지 못하는 한계를 극복할 수 있다고 연구진은 강조했다. 마이크로소프트는 20일 AI가 “오른쪽 소파에 앉아 의자를...
한국딥러닝, VLM 기반 OCR 기술 박차…’딥 OCR 플러스’로 상용화 문서 인공지능(AI) 기술이 단순 텍스트 인식을 넘어 문맥·구조까지 이해하는 방향으로 진화했다. 복잡한 문서에서도 주요 정보를 자동 식별하고 고도화된 자동화 처리까지 가능해졌다. 11일 IT 업계에 따르면...
More