[조선일보] 한국어 특화 AI 모델 쏟아진다

그래픽=백형선·Midjourney

그래픽=백형선
LLM은 AI가 인간의 언어를 이해하고 자연스럽게 답변할 수 있도록 하는 초석(礎石)이다. 문제는 현재 오픈 소스로 공개된 LLM들이 주로 영어와 중국어 기반이라는 점이다. 업계 관계자는 “글로벌 AI 기술이 영어와 중국어 중심이 되면서 해당 언어권의 AI의 발전 속도가 갈수록 빨라지는 경향을 보이고 있다”면서 “한국어 기반 AI와 격차가 벌어지면 이는 국가 경쟁력은 물론 언어 종속 문제로 확대될 수 있다”고 했다.
엔씨소프트와 업스테이지 등 국내 기업들이 최근 한국어 특화 LLM을 연달아 공개하는 이유도 여기에 있다. 한국어 특화 LLM 이용자가 많아져야 관련 데이터가 쌓여 모델 고도화에도 나설 수 있기 때문이다. 업계에서는 한국어 특화 AI가 한정된 국내 시장을 두고 서로 다투기보다 글로벌 AI와의 경쟁에서 살아남는 게 먼저라고 평가한다. 일부 기업은 자사 LLM을 무료로 공개해 더 많은 이용자를 끌어모아 생태계를 키우는 ‘오픈 소스 전략’을 선택하고 있다.
국내 기업들은 오픈AI 등 빅테크와의 차별화를 위해 양질의 한국어 데이터 확보에 사활을 걸고 있다. 이렇게 학습한 데이터의 질적인 차이는 특히 법률과 금융 등 특정 분야의 AI 서비스에서 확인할 수 있다. AI가 전문가의 질문을 문맥에 맞게 이해하거나 관련 문서와 이미지 등을 해석해 자연스럽게 대답을 이어가기 위해서는 한국어로 된 법률 서적 등을 학습해야 하기 때문이다. 관건은 양질의 데이터를 확보하는 일이다. 글로벌 AI 연구 기관 ‘에포크AI’는 AI 성능에 중요한 영향을 미치는 뉴스·논문 같은 고품질 언어 데이터가 올해 1월 이미 바닥난 것으로 분석했다. 이 때문에 일부 국내 기업은 데이터 확보를 위해 연합 전선을 구축하고 있다. 업스테이지는 지난해 한국어 데이터 부족 문제를 해결하기 위해 ‘1T(1조 토큰) 클럽’을 발족시켰다. 1T 클럽은 책, 기사, 보고서, 논문 형태로 1억 단어 이상의 한국어 데이터를 제공할 수 있는 기업과 기관들의 모임이다.
◇”한국어가 곧 AI 경쟁력 될 것”
한국어 특화 LLM은 국내 기업들의 AI 서비스 경쟁력 확보에도 중요한 영향을 미친다. 어떤 AI가 한국어를 가장 잘 이해하느냐에 따라 해당 AI에 기반한 서비스의 품질도 높아지기 때문이다. 또 한국어 등 개별 언어에 특화된 AI 성능이 높아질수록 글로벌 빅테크와의 경쟁에서 생존할 가능성도 높다.
다만 글로벌 빅테크들이 영어와 스페인어 등 언어를 섭렵한 뒤 한국어나 일본어 등 특정 국가의 언어를 AI에 학습시키기 시작하면서 한국어를 둘러싼 LLM 경쟁은 더욱 치열해질 것으로 보인다. 국내 AI 연구 기업 ‘마커AI’에 따르면, GPT-o1 프리뷰가 대학수학능력시험에서 국어 영역 1등급 수준에 오른 것으로 나타났다. 기존 4등급 수준이던 AI의 한국어 능력이 크게 향상된 것이다. 오픈AI는 최근 한국산업은행과 한국어 맥락을 이해하는 AI 모델 개발 등을 위해 협력하기로 하는 등 한국어 데이터 확보에 속도를 올리고 있다. IT 업계 관계자는 “국내 기업들은 양질의 한국어 데이터 확보와 차별화된 서비스 개발이 갈수록 절실해지고 있다”고 했다.
☞거대 언어 모델(LLM)
방대한 텍스트 데이터를 학습한 언어 모델이다. 인공지능(AI)에 거대 언어 모델을 접목하면 AI가 인간의 언어를 이해하며 활용하는 것을 넘어 문장 내 단어 간의 관계까지 파악해 문법과 문맥에 맞는 대화가 가능해진다. 언어마다 문법과 문화적 의미가 달라, 개별 언어를 이해할 수 있게 특화된 LLM의 중요성이 갈수록 커지고 있다.