[AI타임스]업스테이지, 데이터 전처리 메커니즘 ‘데이터버스’ 오픈 소스 공개

데이터버스 깃허브 사이트 이미지 (사진=업스테이지)
국내 대표 인공지능(AI) 스타트업 업스테이지(대표 김성훈)가 대형언어모델(LLM) 생태계 확장에 나섰다.
업스테이지는 데이터 전처리 과정 노하우를 담은 메커니즘 ‘데이터버스(dataverse)’를 오픈 소스 형태로 깃허브에 공개했다고 7일 밝혔다.
데이터 전처리는 LLM 학습을 위해 대량의 데이터에 라벨(주석)을 붙이는 작업이다. 그동안 대부분 인간 수작업으로 진행, 시간과 비용이 가장 많이 드는 과정으로 꼽혔다. 노하우가 없는 기업도 다수라, LLM 도입의 허들로 작용했다.
이에 따라 업스테이지는 ‘텍스트’ 데이터의 전처리 과정을 수월하게 만들 수 있도록 데이터버스를 무료 공개하기로 했다.
특히 전처리 과정에 필요한 모든 소스 코드를 오픈, 파이썬 등 호환성이 맞는 프로그램에 가져가 자유롭게 사용이 가능하다고 설명했다. 코드 변경이나 응용도 가능하다.
LLM에 미세조정을 거쳐 한국어 언어모델 생태계를 만들어가는 ‘오픈 Ko-LLM 리더보드’처럼, 데이터 관리 시장도 함께 만들어 나가자는 취지라고 밝혔다.
박찬준 업스테이지 수석연구원은 “수익화 목적은 전혀 없다”라며 “가장 큰 키워드는 상생”이라고 전했다.
방금 오픈한 만큼 아직 피드백은 찾기 어렵지만, 깃허브에서 실시간 사용자와 프로젝트의 인기를 보여주는 척도인 ‘스타’ 수가 계속 늘어나는 중이라고 전했다. 허깅페이스에서는 따로 업스테이지에 연락, 긍정적인 반응을 보이기도 했다는 소식이다.
허깅페이스, 앨런 AI연구소, 데이터브릭스 등 쟁쟁한 해외 기업 등에서 유사한 프로젝트를 진행한 적은 있지만, 국내에서는 좀처럼 찾기 힘든 사례다.
업스테이지 측은 “이제 시작”이라며 “앞으로 기술력을 꾸준히 고도화하며 더 많은 범위를 공개할 예정”이라고 말했다.
데이터버스는 깃허브 사이트에서 만나볼 수 있다.
출처 : https://www.aitimes.com/news/articleView.html?idxno=157776