[디지털투데이] 생성AI를 위한 기술 생태계 뜬다…벡터DB 등 관심 집중
[디지털투데이 황치규 기자] 생성AI를 내부 시스템에 적용하려는 기업들이 늘면서 거대언어모델(LLM)을 보다 효과적으로 쓸 수 있도록 지원하는 기술들에 대한 대한 관심이 고조되고 있다.
개인 사용자들이야 챗GPT 같은 AI LLM 서비스들을 그냥 쓰면 되지만 기업들, 특히 규제 및 컴플라이언스를 신경쓰는 곳들로 넘어가면 얘기가 달라지기 때문이다.
즉 기업 입장에 LLM을 체계적으로 활용하고 효과적으로 구현하기 위한 이런 저런 기술들이 필요하게 마련이다. 이런 고려 없이 접근하면 비용은 비용 대로 나가고 효율성은 떨어질 수 있다.
관련 업계에 따르면 이에 랭체인(LangChain)이나 라마인덱스(LlamaIndex) 같은 개발 프레임워크, 인 컨텍스트(In context) 학습, 벡터 데이터베이스(Vector Database: 벡터DB) 등이 LLM을 구성하는 기술 아키텍처에서 주목받고 있다.
랭체인과 같은 개발 프레임워크는 LLM을 활용한 서비스들을 효과적으로 개발할 수 있도록 지원한다. 인컨텍스트 학습은 미세 조정 없이 바로 사용할 수 있는 LLM 이용시 자체 ‘컨텍스트’ 데이터에 관한 고품질 프롬프트와 컨디셔닝(conditioning: 조절)을 통해 LLM을 제어하는데 초점이 맞춰져 있다.
법률 문서에 대한 질문에 답변하는 챗봇을 구축하는 것을 예로 들면 모든 문서를 챗GPT 또는 GPT-4 프롬프트에 붙여 놓고 마지막에 해당 문서에 대한 질문을 하는 방식은 규모가 작은 데이터셋이면 효과적일 수 있지만 규모가 크면 비효율적이다. 인컨텍스트 학습은 모든 문서를 붙이지 않고 관련성이 높은 일부 문서만 활용할 수 있도록 있게 해준다.
LLM이 확산되면서 요즘은 벡터 DB를 향한 관심도 기업들 사이에서 뜨겁다. 시장 조사 업체 가트너에 따르면 비정형 데이터는 기업들에서 새로 생성되는 데이터 중 최대 90%를 차지하고 있다. 정형 데이터 대비 3배 빠르게 증가하고 있다.
기업들이 가장 많이 쓰는 관계형 데이터베이스(RDBMS)는 텍스트, 이미지, 음성과 같은 비정형 데이터를 처리하는 데는 한계가 있다. 벡터 DB는 이미지, 영상 텍스트 같은 비정형 데이터를 저장하고 라벨링 되지 않은 콘텐츠도 검색할 수 있도록 지원한다. 비정형 데이터를 검색할 수 있는 새로운 차원의 기능을 제공하지만, 반정형 데이터와 정형 데이터도 처리할 수 있어 LLM 활용에서 중요한 요소로 꼽힌다. AI에 최적화된 DB로 주목받고 있다.
LLM은 자연어를 사용해 텍스트 말뭉치에서 어떤 의미를 추출하는 것이 골자다. 단어, 문장 및 기타 텍스트 단위 간 관계는 다차원 벡터로 표현되며 이를 기반으로 가장 가능성이 높은 연관성을 찾게 된다.
벡터 DB에 대한 열기는 관련 업계 행보에서도 엿볼 수 있다. 우선 벡터DB를 주특기로 투자를 오치하는 스타트업들이 올해들어 부쩍 늘었다. 데이터 과학자들을 위한 벡터DB 개발 업체 파인콘은 4월 1억달러 규모 시리즈 B 투자를 유치했다. 이번 투자로 파인콘 기업 가치는 7억5000만달러로 커졌다.
비슷한 시점에 위비에이트(Weaviate.io)도 5000만달러 규모 투자를 유치했다. 위비에이트는 AI 모델 벡터를 저장하는데 최적화된 오픈 소스 데이터베이스 위비에이트(Weaviate)를 제공한다.회사 측에 따르면 위비에이트는 최대 수십억 개 벡터를 저장하고 처리할 수 있다. 위비에이트는 이번에 확보한 자금을 위비에이트 개발은 물론 위비에이트를 활용한 새로운 클라우드 서비스 개발에 투입한다.
파인콘, 위비에이트와 마찬가지로 크로마(Chroma)도 4월 1800만달러 규모 초기 투자를 유치했다. 크로마는 AI 애플리케이션용 오픈소스 데이터베이스를 개발했다. 크로마 DB는 공개 두달도 안돼 3만5000회 이상 다운로드됐다고 회사측은 전했다.
오픈소스 벡터 검색 및 비정형 데이터베이스 업체인 큐드런트도 4월 750만달러 규모 초기 투자를 유치했다. 이외에도 베스파(Vespa), 질리즈(Zilliz) 같은 다양한 벡터 DB 업체들이 활동 중이다.
비정형 데이터 처리에 초점이 맞춰진 기존 NoSQL 업체들 움직임도 분주하다. 몽고DB 최근 개최한 개발자 컨퍼런스에서 사용자들이 자사 플랫폼을 활용해 앱을 보다 빠르게 구축할 수 있도록 지원하는 새로운 기능들을 선보였다. 벡터 검색을 도입하고 구글 클라우드 버텍스(Vertex) AI 기본 모델을 통합한 것은 물론 데이터 스트리밍, 쿼리 등 서비스형 데이터베이스(DBaaS)를 위한 다양한 기능들을 선보였다. 몽고DB 외에 카산드라, 포스트그레SQL, 싱글스토어 같은 데이터베이스 업체들도 몽고DB와 유사한 기능을 내놨다고 더레지스터는 전했다.
출처 :
http://www.digitaltoday.co.kr/news/articleView.html?idxno=481780