"데이터과학자" 주제의 글
  • 2013년 7월 30일. 시각화된 데이터를 그대로 믿어서는 안되는 이유

    지난 주 피터와든이 자신의 블로그에 올린 데이터 과학자를 주의하라는 경고는 많은 사람들의 주목을 받았습니다. 그의 글은 매우 중요한 점을 지적하고 있지만, 저는 그가 나타낸 문제의식을 보다 명확하게 표현하고 싶습니다. 누구나 자신의 데이터를 발표할 때는 주의할 필요가 있습니다. 하지만 데이터를 시각화(visualize)하여 드러낼 때에는 더욱 특별한 주의가 필요합니다. 와든은 자신의 “미국인들의 페이스북 친구지도”에서 자신이 데이터를 흥미롭게 만들기 위해 비슷한 지역을 색칠하고, 재미있는 이름들을 붙였다고 고백했습니다. 여기에 큰 문제는 없습니다. 그러나 문제는 인간은 더 보기

  • 2013년 7월 29일. 데이터 과학자들을 그대로 믿어서는 안되는 이유

    데이터 과학자가 가지는 장점은 자신이 발표하는 결과들은 과학과 동등한 대접을 받는 반면, 과학에서 매우 중요한 ‘결과의 재현 여부’나 ‘다른 연구자들로부터의 비판’에 대해서는 걱정할 필요가 없다는 점입니다. 내가 이것을 처음 느낀 것은 2년 전 미국의 페이스북 친구연결지도를 블로그에 발표했을 때의 일입니다. 물론 여기에 사용된 자료는 실제 미국인 2억 2천만 명의 자료였고, 나는 미국의 각 도시로부터 그 도시에서 가장 연결이 많은 다른 10개 도시를 연결하는 방법으로 자료를 시각화했습니다. 그리고 얼핏 보기에 연결이 많은 더 보기