컴퓨터가 분석한 6가지 이야기 유형
2016년 7월 25일  |  By:   |  과학  |  No Comment

“내가 인류에 한 가장 큰 기여는,” 커트 보네거트는 1981년 자서전 팜 선데이에서 이렇게 말했습니다. “오래 전 시카고 대학에 제출했다 심사를 통과하지 못한 인류학 석사논문입니다.”

그는 그 논문이 오래 전에 사라졌다고 말했습니다. (“거절된 이유는 내용이 너무 단순하고 너무 흥미위주의 내용처럼 보였기 때문이지요”라고 그는 설명했습니다.) 그러나 그는 그 논문의 기본 아이디어를 계속 생각하고 있었고, 사람들 앞에서 이 생각을 몇 번 더 언급했습니다. 그는 이렇게 말했습니다. “모든 이야기들은 컴퓨터가 알 수 있는 간단한 모양으로 바꿀 수 있습니다. 아주 아름다운 모양이 됩니다.”

이 설명은 우리가 지금도 유튜브에서 볼 수 있는 그의 강의에 들어있습니다. 그는 이 강의에서 유명한 이야기들을 간단한 곡선으로 나타내는 방법을 설명합니다. X 축은 이야기의 시작에서 끝 까지의 시간적 흐름이고 Y 축은 주인공의 경험을 불운에서 행운까지 나타낸 것입니다. “물론 운 이란 것은 상대적인 것입니다. 중요한 것은 그 곡선의 형태입니다.”

그에게 모든 이야기 중 가장 흥미로운 내용은 신데렐라의 이야기 였습니다. 보네거트는 신데렐라가 요정 대모를 만난 뒤로 계단식 상승곡선을 그리다가 무도회에서 정점을 찍고 자정에 최악의 상태로 떨어진다고 이야기합니다. 하지만 오래지 않아(스포일러를 주의하세요!) 신데렐라는 왕자가 가져온 유리구두에 발이 꼭 맞았고 다시 행운의 정점을 찍으며 오래오래 행복하게 사는 것으로 이야기는 끝나게 됩니다.

 

Screen Shot 2016-07-24 at 7.27.41 PM

이 구조는 별로 특별해 보이지 않습니다. 보네거트 역시 – 그의 표현을 빌면 “그냥 쓰레기처럼 보이죠” – 이와 똑같은 구조의 이야기를 발견하기 전까지는 그렇게 생각했습니다. “이런 시작 부분의 계단은 거의 모든 문화권의 창조 신화에서 발견됩니다. 그리고 열두시의 추락은 구약의 창조신화가 가진 독특한 구조와 일치하지요.” 신데렐라의 통금시간은, 보네거트의 차트를 보자면, 아담과 이브가 에덴 정원에서 쫓겨나는 때와 거울 상처럼 동일합니다. “마지막 축복은 초기 기독교에서 표현된 부활의 희망과 같습니다. 이 두 이야기는 사실상 같은 이야기입니다.”

보네거트는, 그가 늘 그랬던 것처럼, 이런 연관성을 발견한 일을 매우 즐거워했습니다. 그리고 35년 뒤, 그의 생각은 수학자와 컴퓨터 과학자들로 이루어진 연구팀이 그의 아이디어를 실제로 실험으로 확인되었습니다. 보네거트는 이 그래프를 손으로 그렸지만 2016년 이들은 컴퓨터의 계산능력과 자연어 처리, 전자화된 문서 등의 기술을 통해 수많은 문헌들의 구조를 파악할 수 있게 되었습니다. 또한 컴퓨터는 당신에게 적합한 이야기 구조를 골라줄 수도 있습니다.

바로 이것이 버몬트 대학과 아들레이드 대학의 연구진이 한 일입니다. 그들은 거의 2,000 편의 소설을 컴퓨터를 이용해 그래프를 그렸고, 이들을 다음의 6가지 종류로 (주인공이 겪는 경험을 기준으로) 나눌 수 있다는 것을 발견했습니다.

  1. 거지가 부자로 (상승)
  2. 부자가 거지로 (추락)
  3. 곤경에 빠진 남자 (추락 후 상승)
  4. 이카루스 (상승 후 추락)
  5. 신데렐라 (상승 후 추락 후 상승)
  6. 오이디푸스 (추락 후 상승 후 추락)

이들은 그저 줄거리를 본 것이 아니라 주인공의 감정을 추적했습니다. 또한 작가들이 가장 선호하는 구조와 독자들이 가장 선호하는 구조를 분석한 후 두 구조가 어떻게 다른지도 비교했습니다. 그들의 논문은 지금 arXiv.org 에 올라와 있습니다.

먼저, 이들은 이 작업을 할 수 있는 데이터 셋을 찾아야 했습니다. 이들은 프로젝트 구텐베르그에서 만 단어에서 이십만 단어 사이의 길이를 가진 1,737 편의 영문소설을 모았습니다.

그리고 각 작품에 대해 감정의 흐름을 분석했습니다. “우리는 특정한 구조가 존재한다고 가정하지 않았습니다.” 주저자이자 버몬트 대학 수학과 박사과정 학생인 앤디 레이건의 말입니다. “우리는 수학 및 기계 학습을 통해 이야기들이 어떤 구조를 가지고 있는지 스스로 판단하도록 했습니다.”

그들은 기계를 학습시키기 위해 책의 모든 단어를 읽어 들인 후 각 단어가 가진 행복 정도에 바탕해 각 단락의 평균 행복 정도를 측정했습니다. 이를 위해 먼저 아마존의 메카니컬 터크를 이용해 자주 사용되는 10,000 개 이상의 단어 각각이 가진 행복 정도를 수치화 했습니다. 이 일 자체도 충분히 흥미로운 작업입니다. 사람들이 가장 행복한 단어라고 평가한 10개의 단어는 아래와 같습니다. 웃음(laughter), 행복(happiness), 사랑(love), 행복한(happy), 웃었다(laughed), 웃음(laugh), 웃는(laughing), 최고의(excellent), 웃는다(laughs), 즐거운(joy). 반대로 가장 덜 행복한 10개의 단어는 아래와 같습니다. 테러리스트, 자살, 강간, 테러리즘, 살인, 죽음, 암, 살해당하다, 죽이다, 죽다. (이 사이트에 모든 단어의 순서가 기록되어 있습니다.)

물론 모든 알려진 이야기들이 몇 개의 원형으로 구분된다고 – 퀘스트, 괴물 무찌르기, 부활 등 – 말하는 몇몇 이론들이 있지만, 그 원형들에 대한 합의된 기준은 아직 존재하지 않습니다. 이번 연구는 컴퓨터가 분석한 목록 중 가장 흔한 6개의 구조로 이야기를 나누었다는 데 의미가 있습니다. 또한 비록 실제 이야기 플롯이 아니라 감정의 변화를 분석한 결과이지만, 이들은 플롯의 변화와 감정의 변화가 일치한다는 것 또한 발견했습니다.

예를 들어, 해리포터와 죽음의 성물의 경우, “복잡한 이야기들이 겹쳐있지만” 그들은 이렇게 썼습니다. “각 작은 이야기들의 감정 곡선은 매우 분명하게 구분됩니다.” (이는 짧은 감정적 순간 – 해리와 지니의 첫 키스 같은 – 는 포함하지 않았을때의 이야기입니다.)

Screen Shot 2016-07-24 at 6.45.51 PM

모든 이야기를 통틀어 “거지가 부자로” 되는 이야기는 전체의 1/5을 차지했습니다. 이는 놀라운 사실이 아닙니다. 옛날 이야기 중 이런 구조를 가진 이야기는 매우 많습니다. 찰스 디킨즈, 이디스 워튼, 제인 오스틴 등의 작품들이 논란의 여지는 있을지언정 여기에 포함됩니다.

“ ‘거지가 부자로’되는 이야기는 미국인들이 꿈꾸는 이야기이며 모두가 믿고 싶어하는 인기있는 이야기입니다.” 레이건의 말입니다. “희망과 공정함의 이야기이며, 어떤 불운한 상태로 시작했든, 노력을 통해 이를 극복하고 결국 행복한 상태에 이를 수 있다는 것을 말해주지요.”

대표적인 이야기는 루이스 캐롤의 “이상한 나라의 앨리스”입니다. 올리브 슈라이너의 1890년 작품 “드림스(Dreams)”도 여기에 속합니다. 컴퓨터는 이 두 이야기가 전형적인 “거지가 부자로” 감정 곡선과 깨끗하게 일치함을 보였습니다. 아래 그림은 “거지에서 부자로”에 속하는 20개 이야기의 감정 곡선입니다.

Screen Shot 2016-07-24 at 7.35.09 PM

“거지에서 부자로”가 작가들 사이에서는 인기 있는 이야기일 수 있지만, 독자들이 가장 좋아한 이야기는 아니었습니다. 그들은 프로젝트 구텐베르그에서 각 소설이 다운로드된 횟수로 인기도를 측정했고, 이를 그룹별로 구분했습니다. 이 방법에서는 “오이디푸스”류 이야기나 “곤경에 빠진 남자”류, 그리고 “신데렐라” 류의 이야기가 “거지에서 부자로”보다 더 인기있는 것으로 나타났습니다. 레이건은 이제 그와 그의 동료들이 앞으로 위의 해리포터 이야기처럼 하나의 이야기안에 서로 다른 곡선이 있을 때 이들이 어떤 순서를 가지는지를 분석할 계획이라고 말했습니다.

그는 이 연구가 기계 학습을 통해 언젠가 기계가 스스로 작품을 써낼 때 도움이 될 수 있을것이라 말했습니다. 물론 이미 소설을 쓰는 로봇들간의 대회도 있습니다.

“이 분야는 활발하게 연구되고 있습니다.” 레이건은 말을 잇습니다. “아직 풀어야할 많은 어려운 문제가 남아 있습니다. 훌륭한 소설을 쓰기 위해서는 플롯, 구조, 감정 곡선 뿐 아니라 캐릭터를 창조해야 하고, 호소력 있으면서도 의미있는 인물간의 대화를 만들 수 있어야 합니다.”

물론 보네거트는 언제나 이를 쉽게 들리도록 말했습니다. 그는 M.R. 제임스의 “골동품 상의 유령 이야기(Ghost Stories of an Antiquary)”, 또는 대부분의 22분 자리 시트콤의 구조인 “곤경에 빠진 남자” 이야기를 이렇게 설명했습니다. “누군가한테 문제가 생기고, 다시 거기서 빠져나오는 거죠.” 보네거트는 강연중에 이런 말을 덧붙였습니다. “사람들은 이 이야기를 사랑합니다. 질리는 법이 없죠.”

(애틀랜틱)

원문 보기