오케이큐피드의 데이터 과학
2014년 9월 24일  |  By:   |  IT, 문화  |  5 Comments

온라인 데이팅 사이트 오케이큐피드(OKCupid)의 대표이자 공동창업자인 크리스챤 러더(Christian Rudder, 39) 는 새 책 데이터클리즘(Dataclysm, 데이터 대재앙) 발매 기념 강연 초안을 엑셀 그래프 두 개로 시작했습니다. 나이에 따라 어떤 상대방을 매력적으로 느끼는가에 대한 그래프였죠. 먼저, 여성은 자신의 나이와 비슷한 남성을 선호합니다. “28세 여성은 28세 남성을 매력적으로 평가하는 식이죠. 나이가 많이 들어 40세가 될 때까지 결과는 자신의 나이에 비례합니다.”

Data_9780385347372_3p_all_r1.j.indd

“그러나 남성의 경우는..”
Data_9780385347372_3p_all_r1.j.indd

청중석에서 폭소가 터졌습니다. 남성은 자신의 나이에 관계 없이 20대 초반 여성을 선호한다는 그래프였죠. 개그맨이 왜 엑셀 그래프를 쇼에 사용하지 않는지 의문이 들만큼 열광적인 반응이었습니다. “끔찍한 일이죠.” 러더가 살짝 웃으면서 덧붙였습니다. 이러한 사실은 어쩌면 우리가 모두 짐작하고 있지만, 이제서야 데이터로 확인된 건지도 모릅니다.

러더가 오케이큐피드의 데이터를 이용해 다양한 분석을 올리는 블로그 오케이트렌즈를 시작한 건 2009년 오케이큐피드가 한창 경영난을 겪고 있을 때였습니다. 회사는 그 해 한 해 정도 버틸 자금만 남아있었고, eHArmony 와 Match.com과 같은 경쟁사에 치여 시장에서 밀려가고 있었지요.

10년 동안 온라인 데이팅은 ‘빅데이터’라는 단어가 인기를 끌기도 전에 빅데이터를 써왔습니다. 사랑 또는 원나잇 스탠드 상대를 찾아 헤매는 유저에게 온라인 사이트는 데이터를 활용해 최상의 짝을 찾아주는데, 오케이큐피드 고객은 자신에게 어떤 게 중요한지 수천 개의 질문에 답하고 사이트는 복잡한 계산 수식을 통해 맞는 짝을 찾아주는 식입니다. 오케이큐피드의 수학 공식과 알고리즘이 곧 핵심 상품이었지요.

러더는 브루클린 외곽에 사는 유부남이고, 아이러니하게도 한 번도 온라인 데이팅을 해본 적이 없습니다. 2003년 오케이큐피드를 창업하긴 했지만, 록밴드 비숍 알랜 (Bishop Allen)의 기타리스트로 공연을 다니며 사업 전선에 뛰어들진 않았지요. 2009년 러더의 동업자는 오랫동안 통계학자로서 엑셀로 생계를 꾸려온 그에게 오케이큐피드 내부 공식과 멤버들의 이야기를 글로 써 유저들을 끌어보는 게 어떻겠냐는 제안을 합니다.

지금 데이터를 이용한 홍보는 꽤나 흔한 일이 되었습니다. 나파 지진 당시 잠에서 깬 사람들 수를 발표한 저본(Jawbone)이나, 사람들의 포르노 시청 형태를 분석한 포른허브(PornHub)이 최근 인기를 끈 사례죠. 그러나 2009년까지만 해도 기업 내부 데이터를 분석해 발표한다는 건 파격적인 결정이었습니다.

오케이트렌즈 첫번째 포스팅이었던, “어떤 인종이 가장 많은 메시지를 받는가”는 단번에 1백만 조회수를 기록했습니다. 버즈피드나 업워디가 페이스북을 활용하는 방법을 발견하기 전 1백만 조회수는 굉장한 기록이었죠. 사람들은 자신들에 대해 이야기하는 걸 좋아하는 듯했습니다. 그러나 러더는 버지니아울프처럼 숨겨진 인간의 진실을 탐구하는 건 아닙니다. 그냥 데이터가 현상을 말하게 하는 것 뿐이죠. 맥주를 좋아하는 사람들은 데이트 첫날 밤 관계를 가질 확률이 높다는 분석도 흥미로웠고, 사람들이 20대 중반에 들어서면서 매주가 아니라 매일 성관계를 가진다는 것도 흥미로운 분석이었습니다.

이러한 발견을 위해 러더는 동료들이 모은 엄청나게 큰 데이터셋을 엑셀에 불러와 “어둠 속을 헤맵니다.” “정색하고 하는데 데이터를 헤매는 건 정말 끔찍해요. 그래도 그냥 하는 거죠 뭐. 제가 하나 잘하는 게 있다면 엑셀이나 포스트 모던 소설 같이 끔찍히 재미없는 걸 하면서도 그저 앉아서 묵묵히 할 일을 하는 것일 겁니다.” 얼마 전엔 “우리도 사람에게 실험을 합니다” 라는 글을 올리면서 평소의 시니컬한 재치를 섞어 올린 포스팅이 가디언, BBC, USA Today 의 주목을 받으며 사람에게 A/B 테스팅을 한다는 사회적 비판을 받기도 했습니다. 크게 비판을 받자 러더는 한발짝 물러났습니다. “저희가 한 실험은 그래도 저희가 만든 매칭 알고리즘이 그냥 간단하게 몇몇 정보만 갖고 짝을 지어주는 것보다 낫다는 걸 증명했죠. 만약 그냥 마구잡이로 짝을 짓는 것보다도 못한 알고리즘이었다면, 그걸 알고 있어야하지 않겠습니까? 과학적인 실험보다 더 좋은 방법을 안다면 저는 새로운 방식을 도입할 준비가 되어있습니다.” 그럼에도 비판은 끊이지 않았습니다 “당신이 한 실험은 사람들이 행동하는 양식을 바꿨습니다. 매칭 알고리즘은 현상 분석이 아니라 프로세스를 변경함으로서 사람들 행동양식을 바꿉니다. 그래서는 안되죠.”

무엇이 원인과 결과였는지 보장할 수는 없으나, 오케이큐피드가 2009년 데이터 홍보를 시작한 후 사업은 번창하기 시작했습니다. 2009년 전까지 5년간 모은 회원이 5백만명이었는데 지금은 2천 5백만명에 달합니다. 블로그 시작 2년후 500만 달러 펀딩을 얻었으며, 수익화에도 성공했지요. 데이터 블로그가 원인이라고 잘라말하긴 어려우나 사업에 도움이 된 것 만은 확실하죠.

러더의 새책 ” Dataclysm” (데이터 폭풍) 은 오케이큐피드부터 트위터, 페이스북, 구글 등이 빅데이터를 어떻게 활용해 우리 생활에 영향을 끼치고 있는지 알려줍니다. “인터넷은 저널리즘, 사진, 포르노그래피, 자선, 코메디, 우리의 일상사까지 모두 민주화시켰죠.” 러더는 이제 데이터를 이용해 우리들의 이야기를 할 시간이라고 말합니다. 이제는 에드워크 스노우덴의 시대를 넘어, 데이터의 위험이 아니라 데이터가 가져올 무한한 가능성을 논할 시간이라는 거죠. “빅데이터의 1막과 2막이 감시와 돈이었다면, 3막은 인간의 이야기입니다.” 그러나 인간의 이야기가 감시와 돈 아니던가요? (FiveThirtyEight)

(역자주: 원문에는 하버드 대학을 나와 락밴드 기타리스트로도 제법 성공을 거둔 크리스찬 러더의 성장 과정과 사업 비화도 다루고 있으나 지면상 생략하였습니다. 원문에서 더 자세한 내용은 확인 가능합니다.)

원문보기