데이터는 어느 날 갑자기 태어나는 것이 아닙니다. 우리는 깔끔하게 정리된 절대적인 데이터를 엑셀 시트로 분석할 수 있다고 착각하곤 합니다. 그러나 현실 세계에서 그런 일은 없습니다. 데이터는 결국 사람에 의해 수집됩니다. 각기 다른 개인, 정부기관, 실험실, 언론 매체 이곳저곳에서 다른 기준으로 모은 데이터를 한곳에 가져와 분석해야 하죠. 데이터 수집이 프로그램에 의해 자동으로 이루어지는 경우도 있습니다. 그러나 그 데이터조차 인간이 쓴 코드로 수집되는 데이터이고, 버그나 에러가 존재할 가능성은 다분합니다. 모든 데이터는 인간의 실수로부터 자유로울 수 없습니다. 그 실수를 최대한 줄이려고 노력할 뿐이죠.
소득 불평등 연구의 대가로 떠오른 토마스 피케티의 베스트셀러 ’21세기 자본’에 나온 주장이 검증되지 않은 데이터에 기반했다는 FT 기고문과 관련해 뜨거운 논란이 일었습니다. (관련 뉴스페퍼민트 기사 : 자본주의 폐해 비판하는 프랑스 경제학자, 미국에서 록스타 대접 받아, 피케티 논문에서 발견된 데이터 에러를 지적한 FT 기고문) 이에 재반박한 경제학자들의 토론을 보려면 뉴욕타임즈나 이코노미스트 글을 참고하세요. 저 네이트 실버는 에러를 분석하기보다 데이터 과학자로서 데이터를 수집하고, 출판하고, 분석하는 과정에 대해 논해보려 합니다.
피케티의 데이터는 여러 소스에서 굉장히 자세한 데이터를 수집해 종합한 결과입니다. 이를테면 영국의 불평등 관련 데이터는 “자본이 돌아왔다: 1700-2010년 선진국의 부-소득 비율(Capital is Back: Wealth-Income Ratios in Rich Countries, 1700-2010)”이라는 논문에서 가져온 다른 소스의 데이터 집합 220개를 모았습니다. 이 출처는 다시 여러 개의 원출처를 종합한 데이터이고, 피케티의 엑셀은 그 수집 과정을 비교적 잘 설명해놓았습니다. 그러나 이런 식으로 오랜 기간에 걸친 다양한 지역의 자료를 여러 출처에서 가져오려면 에러가 생길 수박에 없습니다. 피케티의 논문이 가치 있는 이유는 지금껏 아무도 부의 불평등에 대해 데이터를 모아본 적이 없기 때문입니다. 다시 말하면 이 데이터에 크고 작은 오류가 존재할 가능성도 높다는 뜻이지요. MLB 야구 통계와 비교해봅시다. 야구 통계가 뜨면 수많은 팬들이 열성적으로 데이터를 분석하고 검사합니다. 그럼에도 에러가 발생하나 확실히 사람들의 관심이 많을 수록 에러가 발견되고 수정될 가능성이 높죠.
굳이 피케티가 잘못한 게 있다면 아직 충분히 검증되지 않은 데이터를 통해 중대한 결론을 내렸다는 걸 겁니다. 그렇지만 이 정도 비율의 에러는 받아들일 만한 게 아닐까요? 모든 데이터에서 에러가 전혀 없을 가능성은 없습니다. 그렇다고 끝없이 데이터 검증만 하다 보면 이를 분석할 시간이 없습니다. 야구에서 1930년 핵 윌슨이라는 선수의 타점이 190인데 191로 기록했다고 해서 선수 역량 평가에 큰 오류는 없는 것과 비슷하죠.
비전문가인 제가 피케티 데이터의 에러율이 얼마나 심각한 것인지 판단할 수는 없습니다. 그건 처음 의문을 제기한 FT의 가일스가 꼼꼼히 데이터를 들여다보며 판단하는 것이죠. 이게 바로 동료간의 교차검증 과정(peer-review process)의 시작입니다. 학자들 사이에서 동료간의 교차검증은 논문 출판 전에 서로 글을 읽어주고 이에 대해 평가해주는 것을 가리킵니다. 그러나 제게 교차검증은 일회성이 아니라 계속해서 진행되는 과정입니다. 처음 커피를 마시면서 새 논문 아이디어를 낼 때부터 논문이 출판되고 몇년 후에도 계속 리뷰를 받으며 검증하는 거죠.
FiveThirtyEight은 굉장히 혹독한 비평을 들으면서 발전합니다. 특히 눈이 높은 독자들을 가지고 있는 건 큰 도움이 되죠. 피케티가 만약 그의 데이터 원본을 공개하지 않았다면 이렇게 빨리 에러가 발견되진 않았을 겁니다. 피케티와 그를 비판한 가일스의 데이터에 기반해 또 다른 논문이 나올겁니다. 피케티의 가설을 다른 방식으로 검증하려는 시도도 있겟죠.
과학은 생각보다 엉망진창이고, 사회과학은 더합니다. 그러나 연구자가 부족한 데이터를 가지고 새로운 아이디어를 제시해 새로운 결론을 내렸다면, 파생 연구가 해당 분야를 점점 발전시켜 나갈 겁니다. 중요한 것은 적당히 비판적인 태도를 계속 유지하는 겁니다. (FiveThirtyEight)
뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을 쓰고…
* 비상 계엄령 선포와 내란에 이은 탄핵 정국으로 인해 한동안 쉬었던 스브스프리미엄에 쓴 해설 시차발행을…
우리나라 뉴스가 반헌법적인 계엄령을 선포해 내란죄 피의자가 된 윤석열 대통령을 탄핵하는 뉴스로 도배되는 사이 미국에서…
윤석열 대통령에 대한 탄핵 소추안 투표가 오늘 진행됩니다. 첫 번째 투표는 국민의힘 의원들이 집단으로 투표에…
윤석열 대통령의 계엄령 선포와 해제 이후 미국 언론도 한국에서 일어나는 정치적 사태에 큰 관심을 보이고…
트럼프 2기 행정부가 출범하면 미국과 중국의 관계가 어떻게 될지에 전 세계가 촉각을 곤두세우고 있습니다. 안보…
View Comments
덕분에 좋은 글 잘 읽었네요 수고하셨습니다~