[네이버 검색블로그]개선되는 네이버 뉴스 검색 모델을 소개합니다.
by 지나 오 · Published · Updated
네이버 뉴스 검색은 800여개의 언론사에서 일 평균 6만여건의 신규 기사가 생성되고, 누적으로는 1억 3천만건의 기사를 제공하고 있습니다.
많은 사용자들이 매일 매일 네이버 뉴스 검색에서 원하는 기사, 보고 싶은 뉴스를 만나고 있습니다. 네이버는 사용자와 콘텐츠 생산자를 연결시켜주는 플랫폼으로서 다양한 기사들이 아웃링크 방식으로 소비될 수 있도록 서비스를 제공하고 있습니다.
많은 사용자들이 뉴스를 검색하고 열람하는 주요 창구인 만큼 서비스의 객관성과 투명성을 확보하고 향후 발전 방향 등을 함께 논의하고자, 전문가 11인으로 구성된 ‘네이버 뉴스 알고리즘 검토 위원회 (이하 검토위)를 발족하였습니다. 검토위는 뉴스 검색을 포함한 뉴스 서비스 알고리즘에 대한 전반적인 검토를 진행하였습니다.
지난해 11월 29일 뉴스 검색은 명확한 가이드라인을 기반으로 품질 평가 방향을 정립했고, 검색 결과 개선을 위한 새로운 방향에 문제가 없음을 발표했습니다.
그 검토 결과를 바탕으로 뉴스 검색 알고리즘을 다음과 같이 변경할 예정입니다.
뉴스검색 랭킹 알고리즘의 변화
네이버 뉴스 검색 알고리즘은 다음의 여러 요소를 점수화 하여 검색 랭킹을 결정하게 됩니다.
1) 연관성
기사와 사용자 질의의 관련된 정도를 의미합니다. 네이버 뉴스 검색에서는 기존 검색 기술에 기반하여 질의와 뉴스 기사 간의 연관성을 측정합니다.
2) 시의성
기사가 포함하고 있는 정보가 현재 시점에서 얼마나 유효한 정보인가를 의미합니다. 해당 기사의 작성 후 경과시간 및 해당 기사에서 다루고 있는 정보가 어느 시점에 네이버 뉴스 검색 안에 포함되었는가를 측정하여 점수화 합니다.
3) 기사의 품질
네이버에서는 다음의 추상적 기사 품질 요소를 기반으로 해당 요소를 반영할 수 있는 기계적으로 추출된 품질 지수를 개발하여 검색에 적용하고 있습니다.
– 기사의 충실성
기사가 사건에 대해 중요한 정보를 빠짐 없이 담고 있는지, 그 정보를 뒷받침할 데이터는 충분하게 포함하고 있는지, 그리고 그것이 사용자에게 잘 전달될 수 있는 형태로 구성되어 있는지 등을 나타내는 품질 요소입니다.
– 기사의 참신성
기사가 담고 있는 정보가 사건에 대해 얼마나 새로운 관점을 제시하는지, 기사가 담고 있는 내용이 사안에 대한 이해를 높일 수 있는지를 나타내는 품질 요소입니다.
– 기사의 독창성
해당 기사에서 담고 있는 내용이 다른 언론사와 비교하여 빠르게 기사화된 것인지, 기사는 해당 언론사의 취재에 기반하여 작성된 기사인지 등의 정보를 측정하는 품질 요소입니다.
– 기사의 선정성
보다 많은 사용자들의 이목을 끌기 위한 목적으로 선정적인 제목을 부착하거나 필요 이상의 선정적인 내용을 담고 있는 기사들은 저널리즘 관점에서 뉴스검색의 품질을 저해시키는 요소로 판단하고 있기에 그 정도를 측정하는 품질 요소입니다.
4) 검색 서비스 품질 저해요소
앞서 언급한 대로 네이버 뉴스 검색을 통해 뉴스를 소비하는 양이 막대하기 때문에 오로지 그 클릭을 얻기 위한 목적으로 생성되는 어뷰징 기사가 대량 유입되고 있습니다.
이 어뷰징 기사의 유입은 검색 품질을 하락시키는 것 뿐만 아니라 기사의 대상이 되는 개인의 명예를 훼손하기도 하는 심각한 문제 행위입니다. 네이버 뉴스 검색 알고리즘에서는 이런 이슈 검색어를 노린 어뷰징 문서의 생산 추이를 감지하고 그것을 검색에 반영하고 있습니다.
또한, 사용자의 사용환경을 불편하게 만드는 외부적인 요인(뒤로 가기 강제 광고 노출)또한 검색에 반영될 예정입니다.
다만 위 품질 요소들은 일전에 공지했던 대로 최근 n일간의 데이터만을 바탕으로 추출하기 때문에, 저해요소가 사라진다면 그에 따라 검색 순위도 개선될 것입니다.
검색 랭킹 알고리즘과 어뷰징에 대한 시도는 창과 방패의 싸움과 같고, 어떤 검색 랭킹 알고리즘도 완벽할 수 없는 한계가 있기에 네이버 뉴스 검색도 미흡한 부분이 있을 수 있습니다. 그럼에도 네이버는 보다 신뢰할 수 있는 양질의 기사를 사용자에게 제공할 수 있도록 뉴스 검색 알고리즘에 대한 기술적인 연구를 지속적으로 이어갈 예정입니다.
출처 : https://blog.naver.com/naver_search