[매일경제] 챗GPT 뉴스 도용해 무단 학습 논란…“매경 포함 5개 매체 등 학습”

챗GPT가 학습한 한국 매체
20일(현지시각) 월스트리트저널의 모회사인 뉴스코프는 오픈AI를 상대로 이 같은 문제를 지적했다. 뉴스코프의 제이슨 콘티 다우존스 법률고문은 “월스트리트저널 소속 기자들이 작성한 기사를 활용해 인공지능을 학습시키려고 한다면 누구나 우리로부터 적절한 허가를 받아야한다”면서 “하지만 오픈AI는 우리 회사와 그런 계약을 맺지 않았다”고 지적했다. 특히 그는 “우리는 이번 사태를 심각하게 받아들이고 이 상황을 자세히 검토하고 있다”고 강조했다.
오픈AI가 막대한 미디어의 기사 데이터를 허가 없이 사용한 것은 컴퓨터 전문 저널리스트인 프랜시스코 마크로니가 챗GPT를 활용해 문답한 결과를 트윗을 통해 공개하면서 알려졌다. 마크로니는 챗봇에 어떤 뉴스 미디어를 학습했는지 물었고 미국 주요 20개 매체 이름을 확인했다.
실제로 기자가 직접 물어보니 챗GPT는 상위 10개 매체에 대한 정보를 제공했다. 뉴욕타임스 워싱턴포스트 월스트리저널 US투데이 LA타임스 시카고트리뷴 보스턴글로브 휴스턴크로니클 샌프란시스코크로니클 마이애미헤럴드 등 미국의 대표 유력지다. 특히 이 가운데 뉴욕타임스 워싱턴포스트 월스트리트저널 보스톤글로벌은 구독이 유료다.
하지만 이 같은 지적에 대해 오픈AI는 논평을 하지 않았다고 블룸버그가 밝혔다. 한국 매체 역시 예외는 아니었다. 기자가 챗GTP를 상대로 어디에서 한국 데이터 세트를 구했는지 묻자 “어디에서 데이터를 크롤링했는지 구체적인 정보는 제공받지 못해 정확한 답변을 하기 어렵다”면서도 “하지만 대부분의 한국어 데이터 세트에는 네이버 뉴스, 블로그, 카페 등에서 크롤링한 데이터가 포함되어 있을 가능성이 높다”고 답변했다. 또 구체적인 뉴스 미디어 이름을 명시해 달라는 요청에 대해서는 “한국어 모델을 훈련시키는 데 사용된 뉴스 세트는 연합뉴스, 매일경제, 한겨레, 조선일보, 중앙일보 등 한국의 주요 신문과 웹사이트의 뉴스 기사와 같은 다양한 출처에서 올 수 있다”고 설명했다.
앞서 개발자들은 챗GPT가 코드를 작성하는 능력이 대규모로 자료를 수집하는 이른바 크롤링에서 나왔다며 오픈AI와 마이크로소프트를 소송을 제기한 바 있다. 이들은 “창의적인 학습 결과가 아니다”면서 “사람이 만든 코드를 표절한 것”이라고 주장했다. 또 올 1월 생성형 인공지능 업체인 스태빌리티AI, 미드저니 등은 디자이너들로부터 소송을 당했다. 특히 게티이미지는 스태빌리티AI가 20억장에 달하는 불법 이미지를 인공지능에 투입했다며 사전에 오픈AI가 게티이미지의 허락을 받지 않았다고 주장했다.
블룸버그는 “CNN은 미디어 기사를 무허가 사용해 챗GPT를 학습시키는 것을 명백한 위반으로 보고 있다”면서 “워너브라더스나 디스커버리 역시 인공지능 업체들이 데이터를 학습할 경우 콘텐츠 라이선스 비용을 받는 방안을 검토하고 있다”고 설명했다.
챗GPT는 현재 월간활성사용자수가 1억명이 넘는 만능 챗봇으로 오픈AI가 개발한 초거대인공지능 GPT-3.5를 기반으로 하고 있다. GPT-3.5는 총 570기가바이트에 달하는 언어 데이터를 학습했다. 이 가운데는 뉴스 기사, 과학 논문, 소셜미디어 대화, 웹페이지, 책, 고객센터 데이터, 음성 기록, 이미지, 영화 대본, 위키피디아, 의료 텍스트, 법률 텍스트 등이 포함돼 있다.