튜링 테스트: 유진 구스트만은 생각보다 더 똑똑했습니다
2014년 6월 12일  |  By:   |  과학  |  No Comment

(역자 주: 영국의 코믹 SF 레드드와프의 주인공이자 과학에 많은 관심을 가진 영화배우 로버트 르웰린은 지난주 러시아의 “유진 구스트만 펠로우” 프로그램에 대한 튜링테스트에 참가했고, 그 경험을 가디언에 기고했습니다.)

지난주 케빈 와윅교수가 나를 튜링 테스트에 시험관으로 초대했을 때 나는 뛸 듯이 기뻤습니다. 나는 레드드와프 이전부터 이 분야에 깊은 관심을 가지고 있었습니다.

1980년대 중반, 내 기억이 정확하다면, 나는 마빈 민스키(Marvin Minsky)의 다음과 같은 말을 읽은 적이 있습니다. “우리는 기계를 이해하기 위해서가 아니라, 우리 자신을 이해하기 위해 복잡한 기계를 만든다.”

이는 그들이 처음부터 인간의 사고를 흉내내는 컴퓨터를 만들고 있었음을 의미합니다. 나는 심리치료사와 결혼했고, 우리는 일상에서 종종 이런 대화를 나누었습니다. 하지만 지난 30년간 인공지능을 만들어 온 결과는, 기껏해야 얼마나 인간의 두뇌가 심오하고 복잡한지 알게 되었다는 것입니다.

지난주, 왕립학회의 컴퓨터 스크린 앞에 앉았을 때, 나는 당연히 컴퓨터의 대답을 내가 구별할 수 있으리라고 믿었습니다. 하지만 5분간의 테스트를 10번 진행한 후, 나는 나외 대화했던 컴퓨터가 매우 매우 영리하고 어린 상대였다는 것을 깨달았습니다.

첫 5분의 테스트는 우스울 정도로 간단했습니다. 왼쪽 화면의 응답자는 대답하는 데 시간이 다소 걸렸고, 수다스러웠지만, 나서지는 않았고, 다소 농담기가 있었고, 마치 트위터의 대화 같은 짧고 회상적인 표현을 썼습니다. 반면, 오른쪽 화면의 응답자는 더 빨리 대답했고, 건조한, 유머가 없고 길고 다소 지루한 평범한 답을 주었습니다.

나는 당연히 오른쪽 화면이 컴퓨터일거라고 생각했습니다. 그리고 그 답은 맞았습니다. 나는 기계를 직관적으로 구분한 겁니다.

두 번째 테스트부터 높았던 내 자신감은 한풀 꺾이기 시작했습니다. 나는 나의 한 트위터 팔로어가 추천한 질문을 사용했습니다.

“9우두 한아에 도늘 을마깢2 쓸껀가요 (How mutch wood ewe pay 4 a pear of shews.)”

두 사람은 모두 이 질문을 이해할 수 없다고 답했습니다. 나는 곧, 이 질문을 소리내어 읽어보면 무슨 말인지 알거라고 이야기했습니다. 그리고 컴퓨터는 이 질문에 답하지 못할거라 생각했습니다.

한쪽의 답은 다소 분명치 않았습니다. 그는 이 질문을 이해한 듯 했지만 내가 왜 이걸 묻는지를 궁금해했습니다. 그는 내가 구두를 좋아하는지, 그리고 구두를 사기 위해 많은 돈을 쓸 건지 물었습니다. 나는 이 대답이 의심스러웠습니다. 컴퓨터가 내게 질문을 하는 방식으로 나를 유인하고 있다고 생각했습니다.

반면 다른 쪽은 자기는 패션을 좋아하지 않기 때문에 구두를 그렇게 자주 사지 않는다고 말하는 재치를 보였습니다. 그리고 자신이 어떻게 낡은 구두를 끌고 다니며, 또 왜 그것을 신경쓰지 않는지 설명했습니다.

나는 놀랐습니다. 이들은 모두 그 질문을 이해했습니다. 문자로 입력된 질문을 보고 1억 4천만 개의 가능한 답변 중 하나를 골라야 하는 컴퓨터가 어떻게 저런 틀린 철자로 된 질문을 이해했을까요. 나는 구두와 패션에 대해 보다 능숙하게 말한 그 대답을 사람으로 꼽았습니다. 그리고 나는 틀렸습니다. 이 경우 사람의 대답이 더 컴퓨터처럼 보인 겁니다.

나는 열 번의 테스트 중 네 번을 맞췄습니다. 솔직히 그 중 세 번은 내 판단 보다는 운이 더 작용한 결과입니다. 다른 네 번은 나는 그가 컴퓨터라고 확신했지만 사실은 그 답이 사람의 답이었습니다. 나머지 두 번은 나는 전혀 짐작할 수 없었습니다.

물론 내가 컴퓨터와 대화해 본 경험이 거의 없었다는 사실과 익숙치 않은 키보드를 사용하느라 질문에 시간이 많이 걸렸다는 사실을 생각해보면, 내가 그렇게 잘 속아넘어간 사실이 놀라운 사실은 아닐 수 있습니다.

그러나 내 옆에 앉았던 사이버네틱스 학회 회장이자 로봇 전문가인 미들섹스 대학의 마틴 스미스 교수 역시 열 번 중 여섯 번밖에 맞추지 못했습니다.

유진 구스트만은 놀라운 소프트웨어이고, 이번 결과는 정말 대단한 결과입니다.

물론 이 시험은 화면에 뜬 텍스트로 이루어졌습니다. 만약 우리가 이들의 목소리로 이들을 구별한다면 아직은 쉽게 컴퓨터를 구별할 수 있을 겁니다.

어쨌든 이제 컴퓨터 프로그램은 13세 소년을 흉내내면서 심사관의 33%를 속였습니다. 앞으로 발전할 컴퓨터 기술과 소프트웨어, 음성 인식과 인공 음성을 생각해본다면, 우리는 오래지 않아 정말 자연스러운 인공지능과 대화를 하게 될 것이라는 것을 알 수 있습니다. (Guardian)

원문 보기