익명의 글, 필자를 밝혀낼 수 있는 방법은?
2018년 10월 1일  |  By:   |  과학, 문화, 세계  |  No Comment

세상 모든 작가에게는 남용하는 단어가 한 두 개쯤 있을 겁니다. 본 칼럼이 남발하는 형용사로는 “매혹적인(fascinating)”을 꼽을 수 있죠. 2004년에 출판된 케이트 폭스의 인류학 대중서 “영어 바라보기(Watching the English)”에는 총 500페이지 속에 “liminal(한계의, 문턱의)”이라는 단어가 24번 등장합니다. 저자가 펍처럼 일터와 집 사이의 공간을 설명하기 위해 사용하는 형용사죠. “liminal” 이 같은 해 영어로 출판된 책에 등장하는 단어 중 단 0.00009%를 차지한다는 점을 고려하면, 케이트 폭스는 평균보다 약 180배 이 단어를 쓴 셈입니다. 따라서 어떤 글에 “liminal”이라는 단어가 등장한다면, 폭스가 저자라고 넘겨짚어도 큰 무리가 아니겠습니다.

최근 뉴욕타임스가 트럼프 정부 내 고위 관료가 썼다는 익명의 칼럼을 지면에 싣자, 추측 게임이 난무하고 있습니다. 사람들은 “내부의 레지스탕스”를 자처한 저자가 누구인지를 밝혀내려고 갖은 애를 썼죠. 그런 이들을 사로잡은 단어가 하나 있습니다. 익명의 필자는 고(故) 맥케인 상원의원에 대해 “공직의 명예를 되살리는 길잡이(a lodestar for restoring honour to public life)”라고 칭송했습니다. 북극성, 지침, 길잡이라는 뜻을 지닌 단어 “lodestar”는 “liminal”에 비해도 8분의 1 정도의 빈도수로 등장하는 보기 드문 단어입니다. 곧 마이크 펜스 부통령이 여러 연설문에서 이 단어를 사용했다는 사실이 알려졌고, 수많은 안락의자 탐정들은 부통령을 익명의 필자로 의심하기 시작했습니다. 과연 근거가 있는 이야기일까요?

펜스 부통령은 당연히 혐의를 부인했습니다. 하지만 당사자의 부인 외에도 이 추정을 반박할 근거가 있죠. 법의학 언어학자들이 필자를 추측하는 근거로 삼는 단어들은 “lodestar”와 같이 드물게 사용되는 단어가 아닙니다. 오히려 눈에 띄지는 않더라도 작고 흔한 단어들이 실마리가 됩니다. 범인이 빨간 머리였다거나, 키가 컸다거나 하는 정보는 사실 도움이 되지 않습니다. 그 두 가지 특징을 가진 사람은 아주 많으니까요. 누구에게나 있지만 모양이 전부 다른 지문이 훨씬 더 확실한 증거입니다.

물론 글쓰기를 지문과 나란히 두고 비교할 수는 없습니다. 열 손가락의 지문이 열 개 뿐인 것과 달리 사람들은 평생 살면서 열 편 이상의 글을 쓰고, 작문 스타일 역시 익명으로 남기위해 문체를 숨기기 위해서 등, 다양한 이유로 달라질 수 있습니다. 트럼프 정부 관계자들이 오프더레코드로 기자들과 이야기를 나눌 때, 자신의 신원을 감추기 위해 주변 동료들의 시그니처 표현을 일부러 쓴다는 루머도 있습니다. 하지만 별 것 아닌 특징이 모여서 그 주인에 대한 단서를 제공한다는 점에서는 비슷하죠.

존 제이, 알렉산더 해밀턴, 제임스 매디슨이 함께 필명으로 낸 “연방주의자 논집(Federalist Papers)”를 예로 들어보겠습니다. 여기에는 총 85편의 에세이가 실려있는데, 그 중 12편의 저작권을 해밀턴과 매디슨이 동시에 주장했죠. 역사가들은 글에서 필자의 사상적 흔적을 찾아내기 위해 노력했지만, 합의에는 이르지 못했습니다. 그러던 중 1960년대에 이르러, 통계학자 2인이 해밀턴은 글에서 절대 “while” 대신 “whilst”를 쓰지 않았다는 사실을 밝혀냈죠. 반면 매디슨은 “whilst”를 썼습니다. 매디슨은 “on”을 쓰고, “upon”은 거의 쓰지 않았지만, 해밀턴은 두 전치사를 모두 사용했죠. 두 통계학자는 두 사람의 알려진 글들을 검토해 흔한 단어 몇 가지로 통계학적 모델을 세웠고, 이를 “연방주의자 논집”에서 논란이 된 글들에 적용했습니다. 그 결과 12편 모두 매디슨의 글로 드러났죠. 역사가들이 풀지 못한 숙제를 수학자들이 해결한 셈입니다.

오늘날 우리는 글로부터 필자의 성별, 교육 수준, 출신 지역 등 여러 가지를 알아낼 수 있음을 알게 되었습니다. 일례로 남성이 여성보다 특정 단어들을 더 자주 사용하는데, “축구”와 같이 성별 스테레오타입에 부합하는 단어 뿐 아니라 “a”, “this”, “these”와 같이 흔한 단어들도 포함됩니다. 벤 블랏의 최신작 “나보코브가 가장 좋아하는 단어는 모브(Nabokov’s Favourite Word is Mauve)”는 이 주제를 재미있게 접할 수 있는 책입니다.

이런 이론들로 화제의 뉴욕타임스 칼럼의 필자를 가려낼 수 있을까요? 불가능하지는 않지만 가능성이 매우 낮다는 것이 본지의 결론입니다. 두 사람 중에 한 사람을 가려내는 게임이 아니라 후보가 매우 많고, 그 중 일부에게서는 충분한 양의 작문 샘플을 확보하기도 어려울 것이기 때문입니다. 해밀턴과 매디슨의 시대에는 정치인 한 사람이 많은 글을 남겼지만, 오늘날 대부분의 정치인들은 글쓰기를 참모들에게 맡기죠.

우리의 어휘적 지문이 흔하고 단순한 전치사와 대명사의 사용으로 결정된다는 것은 마치 유전적 지문이 4개의 화학 물질로 구성된다는 것과 비슷하게 들립니다. 인간의 영혼이 담긴 본성이 영혼 없는 요소들로 이루어진다는 것은 참으로 기적적입니다. 이번 달 쿼터를 아직 채우지 않았다면, “매혹적인(fascinating) 일”이라고 표현하고 싶네요. (이코노미스트)

원문보기