서비스 유료화에 소송도 불사…AI 학습에 이는 ‘데이터 갈등’
“LLM 학습 목적으로 검사기 사용 의심”
트위터, 레딧은 데이터 유출 막으려 유료화
메타, 오픈AI 등 줄소송 휘말려

부산대가 서비스하고 있는 ‘한국어 맞춤법·문법 검사기’ 웹사이트 화면. 특정 IP에서의 반복 사용으로 인한 서비스 운영 부담을 호소하는 공지 글이 올라와 있다. /한국어 맞춤법·문법 검사기 웹사이트 캡처
10일 업계에 따르면 부산대는 2001년부터 무료로 배포했던 한국어 맞춤법·문법 검사 서비스를 이달 초 일부 제한하기로 했다. 상업적인 목적으로 데이터를 수집하는 경우엔 서비스를 유료로 공급하기로 했다. 최근 특정 IP에서 한달 간 500만회 이상 검사기를 사용해 서비스 운영비가 불어난 데 따른 조치다. 이 검사 서비스는 한글과컴퓨터의 문서프로그램인 ‘아래아 한글’의 맞춤법 검사 기능에도 활용되고 있다.
정보기술(IT) 업계에선 생성 AI 학습으로 인한 ‘데이터 스크래핑’ 문제가 국내에서도 불거진 것으로 보고 있다. 데이터 스크래핑은 웹상의 정보를 대량으로 긁어가는 행위를 가리킨다. 생성 AI는 이용자가 요구하는 정보를 내놓기 위해 수많은 데이터를 사전 학습해야 한다. 부산대는 “특정 IP에서 거대언어모델(LLM)의 학습 목적으로 검사기를 쓴 것으로 의심하고 있다”며 “데이터의 대용량 처리가 계속되면 서비스 속도 저하가 발생할 뿐 아니라 비용 문제로 인해 무료 제공도 불가능해진다”고 설명했다.
해외에선 AI 학습에 쓰이는 일을 막기 위해 데이터 사용을 단속하는 업체들이 속속 나오고 있다. 일론 머스크는 지난 1일 “심각한 데이터 수집과 시스템 조작 문제를 해결하겠다”며 트위터를 통해 볼 수 있는 일일 게시글의 수를 유료 구독자 6000개, 무료 구독자 600개로 제한했다. 이후 이용자 반발이 잇따르자 제한 한도를 1만개(무료 구독자는 1000개)로 상향했다.
세계 최대 온라인 커뮤니티 사이트인 미국의 ‘레딧’도 데이터의 상업적 이용을 제한하기 위해 앱 프로그래밍 인터페이스(API)를 지난 4월 유료화하기로 했다.
데이터를 쓰는 쪽인 생성 AI 업체들은 줄소송에 빠졌다. 지난달 28일 미국 로펌인 클락슨은 “챗GPT 개발사인 오픈AI가 SNS 게시글·댓글, 위키피디아 자료 등을 무단으로 활용해 수백만명의 권리를 침해했다”며 미국 캘리포니아주 북부연방법원에 소송을 제기했다. 지난 2월엔 이미지 제공업체인 게티이미지가 이미지 도용을 주장하며 생성 AI 개발업체인 ‘스태빌리티AI’에 소송을 걸었다. 개인들도 소송 행렬에 가세하고 있다. 미국 코미디언인 사라 실버맨과 작가 2명은 지난 7일 메타와 오픈AI를 상대로 저작권 침해 소송을 제기했다.
데이터 스크래핑 논란을 피하기 위한 생성 AI 업체의 움직임도 나타나고 있다. 구글은 지난 1일 개인정보 처리 방침을 바꾸면서 “온라인 상에서 공개된 정보들을 수집할 수 있다”는 문구의 적용 범위를 언어모델에서 ‘AI 모델’로 수정했다. 번역 서비스로 명시돼 있던 데이터 활용 범위도 ‘바드’, ‘클라우드AI’ 등으로 넓혔다.
국내에선 네이버가 “여러분들이 제공하는 콘텐츠는 서비스 개선·제공을 위해 AI 분야 기술 등의 연구 개발 목적으로 쓰일 수 있다”고 명시하고 있다. 카카오는 AI 학습과 관련된 구체적인 표현은 없지만 “여러분이 회사에 부여하는 (라이선스) 권리는 서비스를 운영, 개선, 홍보하거나 새 서비스를 개발하기 위한 범위 내에서 사용된다”고 밝히고 있다.