구글의 “독감 트렌드(Flu Trends)”에 대한 변명
2008년 구글은 “독감 트렌드(Flu Trends)”라는 서비스를 공개했습니다. 이 서비스는 사람들이 독감에 걸렸을 때 검색하는 약 40가지의 단어를 바탕으로 독감의 발병을 예측하는 서비스입니다.
그 시점까지만 하더라도 독감 트렌드는 매우 잘 작동했습니다. 이 서비스에 참여했던 미국질병방제센터(CDC)의 역학및 예방분과소장 조셉 브리제는 이렇게 말했습니다.
“우리는 이 새로운 기술이 미국에서 독감이나 다른 어떤 질병의 발병을 감시할 수 있는 더 나은 방법을 줄 지 모른다는 사실에 매우 흥분해 있습니다.”
CNN, 뉴욕타임즈, 월스트리트 저널 등 모든 언론이 이 소식을 다루었습니다. 2008년 쯤의 구글은 단지 어떤 아이디어가 좋은 생각이라는 이유만으로도 놀라운 일을 해낼 수 있는 그런 회사였고, 독감 트렌드는 바로 그런 구글의 모습과 잘 맞는 서비스였습니다.
그리고 이 때는 래리 브릴리언트(Larry Brilliant)라는 인물이 Google.org 를 만든 때이기도 합니다. 그는 이렇게 말했습니다.
“나는 아프리카의 한 아이가 바로 옆 거리에서 콜레라가 시작되었다는 것을 인터넷으로 찾는 상상을 합니다. 나는 캄보디아의 누군가가 길 건너편에서 나병이 생긴 것을 인터넷으로 발견하는 것을 꿈꿉니다.”
이 모든 일들은 사람들이 빅 데이터라는 단어를 말하기 시작한 2011년보다 한 시대를 앞서 있었던 일입니다.
그러나 시대가 변하기 시작했습니다. 이제 누구나 빅 데이터를 말하고 있고, 사람들은 이를 반기기보다는 우려하고 있습니다. 모든 주제에 대해 사람들은 NSA와 빅브라더를 언급하기 시작했습니다.
구글도 이런 흐름에 동참하고 있습니다. 지난 해 빌 게이츠는 블룸버그와 가졌던 인터뷰에서 이렇게 말했습니다.
“구글은 한 때 다양한 분야로 영역을 넓힐 것처럼 보였습니다. 그들은 래리 브릴리언트를 고용했고 언론은 이를 떠들썩하게 보도했지요. 어느날 그들은 그 모든 일들을 멈추고, 이제 자신들의 핵심분야에만 집중하고 있습니다.”
래리 브릴리언트는 2009년 구글을 떠났습니다. 지금 Google.org 는 Google.com/giving 으로 연결됩니다.
다시 구글의 독감 트렌드 이야기로 돌아와봅시다. 지난 달, 사이언스 지에 실린 “구글트렌드가 준 교훈: 빅데이터 분석의 함정(The Parable of Google Flu: Traps in Big Data Analysis)”이라는 논문은 독감 트렌드의 예측 능력 실패를 다루며, 독감 트렌드가 2011년 8월 이후 108 주 중에서 100 주 동안 실제 독감발병보다 더 높은 값을 예측했다고 발표했습니다.
그리고 다시 많은 매체들이 이를 다루었습니다. 포브스는 “왜 구글 독감 트렌드는 실패했나”라는 제목을, 타임즈는 “구글 독감 트렌드의 실패가 보여주는 빅 데이터의 단점”이라는 제목을 뽑았았습니다. 마치 이들의 기사 제목을 보면 구글의 독감 트렌드가 전혀 엉뚱한 결과를 만들어 내는 것처럼 보입니다.
그러나 논문을 잘 살펴보면, 비록 독감 트렌드 자체는 좋은 결과를 주지 않았지만, 독감 트렌드와 CDC의 표준예측결과를 조합했을 때는 실제로 더 나은 결과를 준다는 것을 볼 수 있습니다. 논문의 저자는 이렇게 말합니다.
“구글 독감 트렌드는 그 자체로 다른 전통적인 방법을 대체하도록 만들어졌다기 보다는 다른 방법을 보완하는 용도로 만들어졌습니다. 다른 감시 시스템과 마찬가지로, 이 데이터를 바탕으로 추가적인 실제 조사활동을 하기 위해 사용될 때 가장 유용할 수 있습니다.”
만약 독감 트렌드가 실제로 CDC 의 방법들을 보완할 목표를 가졌다면, 이를 독감 트렌드의 실패라고 부르는 것이 맞는 표현일까요? 실제로 2004년, 독감 트렌드를 지금은 거의 사문화된 구글의 20% 법칙을 통해 만든 매트 모헤비(Matt Mohebbi)와 제레미 깅스버그(Jeremy Ginsberg)는 당시 독감 트렌드를 완성한 직후 CDC 에 연락을 취해 그들이 보완적인 용도로 사용할 수 있도록 그들과 협력했습니다.
그리고 독감 트렌드는 기존의 방법을 보완했을 때, 기존의 방법보다 더 나은 결과를 만들어 내고 있습니다. 이런 상황에서 독감 트렌드를, 그리고 이를 빅 데이터의 실패라고 부르는 것이 맞는 표현일까요?
새로운 기술이 등장할 때마다 사람들은 과도한 환호성을 보냅니다. 그리고 그 기술이 자신들의 기대에 미치지 못했을 때, 다시 이를 실패로 쉽게 규정짓습니다.
다행히, 이런 대중과 언론의 호들갑을 신경쓰지 않는 사람들이 있습니다. 과학자들은 이 독감 트렌드의 방법론이 역학(epidemiology)분야에 중요한 역할을 한다고 생각하고 있으며 2009년 깅스버그의 네이처 논문은 지금까지 다양한 분야에서 1,000번 이상 인용되며 과학의 발전에 기여하고 있습니다. (Atlantic)