데이터 과학자들을 그대로 믿어서는 안되는 이유
2013년 7월 29일  |  By:   |  IT, 과학  |  No Comment

데이터 과학자가 가지는 장점은 자신이 발표하는 결과들은 과학과 동등한 대접을 받는 반면, 과학에서 매우 중요한 ‘결과의 재현 여부’나 ‘다른 연구자들로부터의 비판’에 대해서는 걱정할 필요가 없다는 점입니다. 내가 이것을 처음 느낀 것은 2년 전 미국의 페이스북 친구연결지도를 블로그에 발표했을 때의 일입니다. 물론 여기에 사용된 자료는 실제 미국인 2억 2천만 명의 자료였고, 나는 미국의 각 도시로부터 그 도시에서 가장 연결이 많은 다른 10개 도시를 연결하는 방법으로 자료를 시각화했습니다. 그리고 얼핏 보기에 연결이 많은 지역들을 같은 색깔로 칠함으로써 더 연결이 많은 것처럼 보이게 했고, 각 지역에 그럴 듯한 이름을 붙였습니다. 나는 이 결과가, 그저 내가 가진 자료를 흥미롭게 나타내는 방법이라고 생각했지만, 사람들은 이 그림을 과학적 연구결과로 대접했습니다. 뉴욕타임즈의 칼럼니스트는 미국의 분열상태가 위험한 지경에 이르렀다는 주장의 근거로 이 그림을 사용했습니다. 백인지상주의자들은 이 그림의 설명에 나온, 후안(Juan)이 존(John)보다 텍사스 외곽에서 더 많이 발견된다는 사실에 근거해 미국이 히스패닉에게 점령당하기 직전이라고 주장했습니다. 문제는 나의 자료들은 페이스북이 내게만 허락한 자료이기 때문에, 내가 이 자료들을 뛰어난 사회학자와 함께 분석할 수 없다는 사실입니다.

나는 그 후로 이런 빅데이터를 이용해 많은 작업들을 해왔지만, 이런 작업들에 대한 비판이 거의 없다는 사실은 늘 나를 불편하게 만들었습니다. 데이터과학자의 신뢰수준은 독자들이 항상 건전한 의심을 유지하는 언론의 기사들과 과학자들에게 이미 검증된 과학연구 사이의 애매한 위치에 존재합니다. 아마 한 사회학자가 여러분에게 유타 주에 사는 사람들은 유타 주에 사는 사람들과만 페이스북 친구를 맺고 있다고 말한다면, 당신은 인터넷을 이용해 그 사회학자가 정말 믿을만한 사람인지를 확인할 겁니다. 그러나 나같은 첨단기술을 가진 회사에 소속되어 그들의 자료로부터 결과들을 뽑아내는 경우, 나의 결과를 다른 사람들이 검증할 방법은 거의 없습니다. 자료는 회사의 사적 소유물이며, 또 많은 경우, 사용자들이 그들의 정보를 수시로 바꾸기 때문에 앞선 결과를 그대로 재현하는 것은 불가능합니다. 내가 아는 모든 데이터과학자들은 정직한 사람들이지만, 그럼에도 불구하고 그들을 계속 정직하도록 만들 수 있는 어떤 검증제도는 필요합니다.

나는 오늘날 데이터과학자들이 이렇게 각광받는 현실에 대해 진짜 과학자들에게도 책임이 있다고 생각합니다. 오늘날 우리가 수집하는 데이터에는 놀라울 정도로 많은 정보들이 포함되어 있지만, 기존의 과학자들은 여전히 이 분야에 큰 관심을 보이고 있지 않습니다. 물론 여기에는 자료의 소유권, 빅데이터를 다루기 위한 기술, 학계와 벤처산업간의 문화차이 등의 많은 장벽이 있습니다. 그렇다고 이들이 극복불가능한 장벽은 아닙니다. 미연방국세청(IRS)과 미국인구조사국은 훌륭한 성과를 내고 있습니다. CERN 에서 나오는 데이터를 생각한다면, 물리학자들은 이미 충분한 기술을 가지고 있습니다. 많은 스타트업은 대학에서 출발하였고, 이들의 문화가 그렇게 크게 차이가 나는 것은 아닙니다.

이런 현실에 대해 나는 이렇게 대처합니다. 나는 OpenPaths 의, 빅데이터의 소유권을 해제하여 과학자들이 이들을 사용할 수 있게 하려는 노력이 잘 되기를 바랍니다. 나는 나의 블로그에서 벤처기업들이 사용하는 기술을 소개하고 있습니다. 나는 페이스북의 카메론 말로우가 학계와 함께 진행하는, 학계의 심사를 통과할 연구에 기대를 걸고 있습니다. 마지막으로, 나는 계속해서 데이터과학자들의 작업결과를 그대로 믿어서는 안된다는 주장을 펼쳐, 사람들이 건전한 의심을 가지게 되도록 노력하고 있습니다.

여러분들은 이렇게 대처해 주시길 바랍니다. 만약 당신이 사회과학자라면, 우리가 모든 대중의 인기를 독차지 하기전에 이 분야로 들어오기를 바랍니다. 당신이 벤처업계에 있다면, 그리고 당신이 가진 데이터들 속에 무언가 특별한 것이 있다면, 이것을 학계와 연결시킬 수 있을지를 고려해주길 바랍니다. 당신이 일반 독자라면, 데이터 과학자들이 계속해서 정직함을 유지할 수 있도록, 이들의 그럴듯한 포장에 대해 까다로운 비판의 시선을 유지해주길 바랍니다. (PeteWarden)

원문 보기