[조선비즈] IT 기업들 “잠자는 ‘다크 데이터’를 깨워라”
과거 검색 기록 등 방치된 데이터… 분석 기술이 고도화되면서 주목
美IBM, 편집된 PGA 경기 영상 중 선수 몸짓 등 분석해 주요장면 뽑아
日, 냄새 데이터로 성분까지 파악“개인 정보 유출 등 피해 우려도”
◇‘아직 발견되지 않은’ 데이터
우리가 주로 활용하는 데이터는 형식에 맞춰 정확한 수치로 잘 정돈된, 이른바 정형화(定型化) 된 것이 대부분이다. 그러나 소리의 크기, 냄새의 정도와 같은 비(非)정형 정보에서 숨어 있는 가치를 찾아낼 수 있다.

애플은 지난 2017년 다크 데이터 처리 방법을 연구하는 영국 기업 래티스 데이터(Lattice Data)를 인수하면서 이 분야에 뛰어들었다. 애플은 이 회사의 기술을 음성 비서 시리(Siri)와 결합, 다양한 음성 정보에서 사용자와 관련된 여러 정보를 파악할 수 있을 것으로 추측된다. 아마존도 미국의 다크 데이터 분석업체 ‘하비스트(Harvest)’를 인수해 이 회사의 사이버 보안 부문을 강화할 전망이다. 하비스트는 서비스 사용자의 행동 데이터를 분석해 해킹을 방지한다. 정형화하기 어려웠던 ‘냄새’를 데이터화하는 일종의 다크 데이터 활용 기술도 등장했다. 일본 도요하시기술대 연구팀이 개발한 ‘냄새 카메라’는 반도체 칩에 특수한 막을 입혀 냄새 강도에 따라 성분을 파악한다. 육안으로 구분이 어려운 물이나 소주를 냄새로 구별하고, 그 성분까지 알아낸다.
◇개인 정보 유출 우려 등 숙제도
IT 기업에서는 각종 검색·접속 기록 등 로그 데이터가 많이 생성된다. IT 업계는 이러한 로그 데이터를 활용하면 보안 기술 향상이나 운영 효율화 방안을 찾을 수 있을 것으로 본다. 업계에선 이렇게 가치를 찾지 못하고 쌓여 있는 다크 데이터가 기업 데이터의 약 80%에 달할 것으로 추산한다. 업계 관계자는 “당장은 이를 어떻게 활용할지 모호할 뿐, 불필요한 것은 아니다”라며 “그런 측면에서 ‘아직 발견되지 않은 데이터’라고 보는 것”이라고 했다.
하지만 다크 데이터의 활용이 말처럼 쉽지만은 않다. 미국의 데이터 분석 업체 ‘스플렁크(Splunk)’가 최근 주요 IT 기업을 설문조사해 보니, 77%가 “우선 다크 데이터의 (존재) 파악이 최우선“이라고 답했다. 또 모든 다크 데이터가 숨은 가치를 갖고 있는 것도 아니다. 시장조사기관 가트너에 따르면 실제 경영·마케팅에 가치가 있는 다크 데이터는 15% 수준에 그친다.
특정 분야에서 다크 데이터 활용도를 높이기 위해선 데이터 공유 플랫폼 구축이 선행돼야 한다는 지적도 있다. 예컨대 의료·제약 분야에서 다크 데이터 분석 방식이 병원마다 다르면 의미있는 자료를 얻기 어려워진다.
또 개인 정보 유출 등의 피해 우려도 상존한다. IT 업계 관계자는 “다크 데이터가 중요한 저작권이나 개인 정보를 담고 있다면 유출에 따른 피해가 발생할 수도 있다”며 “발굴 못지않게 활용상 안전장치 마련도 중요하다”고 했다.
출처 : https://biz.chosun.com/site/data/html_dir/2019/12/04/2019120403473.html