네이트 실버의 538 개장 선언서: 여우는 무엇을 아는가
(역자주) 뉴욕타임즈의 데이터기반 정치 블로그로 인기를 끌던 네이트 실버는 2012년 미국 대선 결과를 놀랍도록 정확하게 맞추며 스타가 된 후 ESPN에 새살림을 꾸렸습니다. (관련 뉴스페퍼민트 기사: 빅데이터계의 거물, 네이트 실버와의 인터뷰) 그리고 지난 17일, 드디어 538 블로그명을 딴 새로운 미디어 사이트를 출범했습니다. 개장과 함께 네이트 실버가 쓴 선언문 “여우는 무엇이 다른가”를 요약, 소개합니다.
538 (오백삼십팔: FiveThirtyEight)은 데이터 저널리즘 기관입니다.
538은 지난 2012년 대선에서 50개 주의 대선 결과를 모두 맞추며 유명세를 탔습니다. 그러나 538을 정치나 선거하고만 연결짓지는 말아주세요. 538이 정치에서 두각을 나타낸 것은 오히려 같은 데이터를 갖고도 정확한 예측을 하지 못했던 기존 미디어의 책임이 크며, 우리는 앞으로 ‘예측’을 하는 정치 분야에서 벗어나 게이 결혼에 대한 포용력이라든지 교황 선출 결과 예측 등 스포츠부터 과학, 라이프스타일, 경제까지 다양한 분야를 폭넓게 다룰 예정입니다.
제가 뉴욕타임즈에 합류하기 전인 2008년이었다면 이렇게까지 범위를 넓히지 않았을 겁니다. 그러나 기존 언론사의 메커니즘을 이해한 후 데이터 저널리즘이 모든 분야에 필요하다는 사실을 깨달았습니다. 왜 그럴까요? 언론을 업으로 택한 사람들이 원래 읽고 쓰기에 능하고 수학에서는 평균 아래인 사람들이 많습니다. 숫자를 좋아하는 사람들은 언론 말고 다른 직업을 가질 기회가 많죠. 그러나 언론은 사회에 지식을 전달하는 아주 중요한 역할을 담당합니다. 데이터가 넘쳐나는 오늘날 사회에서도 그 데이터가 실제 경제, 인류 복지, 기술 개발에 충분히 활용되고 있지 않다고 봅니다. ‘머니볼’이 화제가 되는 건 특이한 상황이었기 때문이죠.
로고에 있는 여우는 그리스 시인 아르킬로코스의 말에서 따왔습니다. “여우는 잡다하게 아는 게 많지만, 고슴도치는 중요한 딱 한 가지를 알고 있다.” 우리는 여우입니다. 뉴스를 제대로 이해할 수 있도록 여러 가지 다양한 방안을 통해 접근해보려 합니다.
일화를 데이터와 정보로 가공하는 절차에 대해 이야기해볼까요? 첫 번째 단계는, 데이터를 모으는 겁니다. 자료를 뒤져보고 인터뷰하고 사람을 관찰하는 전통적인 접근도 있지만 데이터 저널리스트는 설문조사 결과나 실험 결과 등의 양적 정보를 따로 모읍니다.
그리고 다음 단계로 이를 정렬합니다. 여기까지는 기존 언론들도 곧잘 하는 작업입니다. 시간이나 중요한 순으로 정리해서 이야기를 만듭니다. 데이터 저널리스트는 데이터를 효과적으로 보여줄 수 있는 그래픽을 만듭니다. 한 장의 그림이 백 마디 말보다 낫다는 말이 사실일지는 모르겠지만 스토리텔링에 다른 방법을 제시할 수 있습니다.
세 번째는 설명입니다. 기존 언론에서 ‘해설언론’이나 뉴스 분석으로 일컬어지는 분야로 ‘누가, 언제, 어디서, 무엇을’ 보다 ‘어떻게, 왜’에 집중하죠. 이때 데이터 저널리스트는 데이터의 관계나 패턴을 찾습니다. 마크 할프레인과 존 헤일만은 2012년 대선을 분석한 책에서 미트 롬니가 실패한 이유로 공화당 전당 대회, 리비아 벵가지 침략에 대한 대응 실패, 런던 순방 실패를 꼽습니다. 그러나 사실은 첫 번째 공화당 전당대회만 중요한데, 사건 전후 지지율을 분석해보면 바로 알아볼 수 있는 일입니다. 여기서 데이터 저널리즘은 많은 가치를 제공합니다. 물론 통계적 접근도 실패할 때가 많고, 되려 잘못 사용될 수 있습니다. 그럼에도 불구하고 기존언론이 ‘해설’에 실패하는 사례를 몇 가지 들어보려 합니다. 첫 번째는 ‘공정성’에 대한 강박관념입니다. 제게 공정성이란 가장 객관적으로 현실을 보여주는 것입니다. 어느 한 쪽의 편을 들지 않는 것이 아니죠. 두 번째는 언론이 인과관계를 엮어 설명하면서 ‘사설’의 영역에 들어설 때입니다. 저는 사설을 혐오하는데, 언론으로서의 공정성도 과학적인 공정성도 갖추지 못한 분야라고 봅니다. 우리는 이 두가지 실패를 피할 수 있습니다.
네 번째 단계는 보편화입니다. 여기서 다시 딜레마가 탄생합니다. 2012년 대선, 2014년 수퍼볼, 1812년 전쟁 설명에 성공했다고 대선, 수퍼볼, 전쟁을 설명할 수 있는 일반적인 규칙을 제시할 수 있을까요? 보편화는 과학의 가장 기초 단계로 가설을 세워 실험하고 입증하면서 바로 서는데, 사회과학은 이를 하기가 어렵습니다. 비슷한 사례를 굉장히 많이 분석할 때나 가능하죠. 데이터가 많아질수록 데이터 저널리즘은 기존 언론보다 힘을 발휘합니다. 예시를 들어보죠. 제 방에는 500권 정도의 책이 있는데 저는 색깔 순으로 이를 정리합니다. 책을 찾을 때 색을 떠올리고 찾아야한다는 불편함이 있지만 집안의 인테리어를 위해 불편함을 감수할 용의가 있기 때문이죠. 그러나 책이 5만 권, 5천만 권이 되면 철자 순이나 출판사 순 등 이를 정리하는 체계가 필요할 겁니다. 요점은 ‘선명하게 보여주는 것'(Vividness) 과 ‘확장성'(Scalability)을 둘 다 제공하기는 어렵다는 겁니다. 데이터를 분석할 때는 눈에 보이는 현상에 신경을 끄고 큰 그림을 봐야 합니다.
우리가 작은 일화를 이야기하지 않겠다는 것은 아닙니다. 그러나 우리는 세부 데이터를 찾아 상황을 좀 더 잘 보여주는 데 초점을 맞출 겁니다. 이 현상은 왜 아웃라이어고, 이 현상은 왜 트렌드인지 설명하려 합니다. 다만 정확성과 접근성을 제공해서 위해 신속함에 따르는 제약은 어느 정도 감수하려 합니다. 538은 앞으로도 특종을 터뜨리는 매체는 아닐 겁니다.
우리는 분명 앞으로 많은 실수를 저지를 겁니다. 그러나 그 과정에서 독자가 혜안과 즐거움을 얻을 수 있도록, 그리고 데이터 저널리즘의 가치를 보여줄 수 있도록 노력하겠습니다. 자, 이제 뉴스를 좀더 공부벌레들이 노는 곳으로(nerdier) 만들어봅시다.(FiveThirtyEight)