미국 정부의 기계 번역 활용, 문제점은?
구글 번역기 같은 온라인 번역기에 문장을 넣었다가, 전혀 다른 뜻의 우스꽝스런 답을 받아본 경험이 많은 이들에게 있습니다. 그렇기 때문에 번역 서비스를 제공하는 구글을 포함, 많은 전문가들이 기계 번역에 지나치게 의존해서는 안 된다고 경고하고 있으며, 현재의 기계 번역 서비스가 인간 번역을 대체하는 것은 아님을 분명히 하고 있죠.
하지만 미국 정부는 난민 심사에 기계 번역을 적극 이용하기로 결정한 것으로 보입니다. 프로퍼블리카가 공공기록물 신청을 통해 입수한 미 이민국의 내부문서는 담당자들에게 영어가 아닌 외국어로 작성된 난민 신청자들의 소셜미디어 게시물을 검토할 때 구글, 야후, 빙과 같은 포털이 제공하는 무료 번역기를 활용할 것을 지시하고 있습니다. 구글 번역기 사용법을 단계별로 친절하게 설명하는 문서도 부록으로 붙어있었죠.
언어 전문가들은 이러한 기계 번역 서비스가 뉘앙스나 속어를 제대로 파악하지 못하기 때문에 별 뜻 없는 문장을 오해할 수도 있고 반대로 정말 위험한 부분을 놓칠 수도 있다고 지적합니다. 인디애나대에서 인지과학과 비교문학을 가르치는 더글러스 호프스테더 교수는 “정부 기관의 인식이 너무 순진하고 무지하며 근시안적”이라고 말합니다.
이민국의 기계 번역기 사용에 대한 질문에 이민국 대변인은 이메일을 통해 “공개된 소셜미디어 정보를 검토하는 것은 심사 절차를 강화하기 위한 상식적인 절차”라며, “소셜미디어를 통해 수집한 정보만을 가지고 난민 적격 여부를 결정하지는 않는다”고 명시했습니다.
2017년에는 페이스북이 팔레스타인인의 아침 인사 포스팅을 “그들을 공격해라”라는 문장으로 기계 번역한 것에 대해 사과한 적도 있습니다.
프로퍼블리카는 언어 전공 교수들과 함께 일상어로 쓰여진 트위터 게시물을 구글 번역기에 넣고 결과를 비교해보기로 했습니다.
우르두어로 작성된 한 트윗은 펜실베니아대에서 우르두어를 가르치는 교수가 “나는 맞기도 많이 맞았지만 (부모로부터) 사랑도 많이 받았다”라고 번역했는데, 구글 번역기에 넣자 “체벌은 너무 컸고 사랑은 너무 바람이 심했다”라는 뜻의 영어 문장으로 번역되었습니다.
트럼프 정부는 이민국의 심사 업무에서 소셜미디어의 비중을 크게 확대했습니다. 난민 관련 활동가들은 이민국 직원들이 난민 신청자들의 삶과 미국의 국가 안보가 달린 중요한 문제를 기계 번역에 의존하여 결정하는 상황에 우려를 표하고 있습니다. 이민국도 자동 번역의 품질이 기대에 미치지 못한다는 것을 인식하고 있습니다. 소셜미디어 검토에 있어 “자동 번역이 충분하지 못했다”는 내용을 담은 날짜 미상의 내부 문서가 돌기도 했죠. 2016년 6월에 시행된 또 다른 시범 리뷰에서도 문제 있는 소셜미디어 상의 정보를 검토하는데 원어민 아랍어 전문가와 문화, 종교, 테러리즘 전문가가 반드시 필요하다는 내용이 담겼습니다.
해당 매뉴얼은 배우자나 부모가 이미 미국에서 난민 지위를 획득한 신청자, 즉 가족 난민 신청자에 대한 심사건만을 다루고 있습니다. 이런 경우는 전체 난민 신청건수 중에서는 매우 일부에 불과합니다. 2017년에는 전체 신청건수의 3%에 해당하는 1679명의 가족 신청자만이 입국을 허가받았습니다.
국제난민지원프로젝트(IRAP) 관계자는 “누가 미국에 와서 가족과 재회할지의 중차대한 문제를 결정하는데 신뢰할 수 없는 도구를 활용하다니 논리적이지 않다”며, “숙제할 때도 쓰지 않을 구글 번역기에 가족의 생이별 여부가 달려있다”고 지적합니다.
해당 매뉴얼이 현장에서 얼마나 널리 활용되고 있는지는 명확히 알려지지 않았습니다. 또한 가족 난민 신청자 외에 다른 난민이나 이민 신청자 심사에도 기계 번역이 활용되고 있는지 역시 파악되지 않았습니다. 매뉴얼이 언제 발간되었는지도 알 수 없지만, IRAP이 해당 문서 공개 요청을 한 시점은 2017년 10월 23일입니다. 이민국은 매뉴얼의 활용 실태에 대해서 답변을 거부했습니다. 이민국 자체 발표에 따르면 2018 회계연도에 이민국은 11740건의 소셜미디어 검토건을 처리했습니다.
매뉴얼도 온라인 기계 번역이 “때로 방언이나 구어체로 쓰인 외국어”를 이해하는데 충분치 않을 수 있다는 점을 인정하고 있습니다. 그러나 전문 번역 서비스를 추가적으로 요청할지 여부는 담당관 개개인의 판단에 맡기고 있죠. 해당 외국어에 유창하지 않은 담당관이라면 전문 번역 서비스가 필요한지의 여부도 판단하기 어려울 거라는 지적이 이어지죠.
구글과 야후 측은 자사의 서비스가 이민국 업무에 쓰이고 있는 상황에 대해 언급을 피했고, 마이크로소프트 역시 “노코멘트”라는 답변을 내놓았습니다.
언어 전문가들은 기계 번역이 풍자를 잘 이해하지 못한다는 점도 지적합니다. “누구 자식이 미국에 살더라?”라는 페르시아어 트윗(최근 이란 고위 관리의 가족들이 서구에 거주하고 있어 논란이 된 것을 풍자하는 내용)을 구글 번역기는 “미국을 언제 맛볼텐가?”로, 마이크로 소프트는 “미국인은 누구인가?”로 번역했죠. 하버드대에서 페르시아어를 가르치는 셰이다 다야니 교수는 “이란에 무엇에 대해서든 농담을 많이 하는 문화가 있다”며 학생들에게도 온라인 번역기 사용을 금지한다고 말합니다. 중요한 결정을 내려야 하는 이민국 업무에 있어서는 “절대적으로 부적절한 기술”이라는 것이 다야니 교수의 지적입니다.
번역기의 사용은 다른 맥락에서도 등장한 바 있습니다. 2017년 미국 캔자스 주에서는 고속도로 교통경찰이 한 멕시코인의 차량을 영장없이 수색하는 과정에서 구글 번역기로 번역한 스페인 문장으로 동의를 구했죠. 이 사건에 대해 판사는 피고가 경찰관의 명령과 질문을 제대로 알아들었다고 볼 수 없다며 수색에서 나온 증거를 기각했습니다.
구글은 최근 몇 년간 ”인공 신경망 기계 번역“이라는 신기술로 번역기의 기능이 크게 개선되었다고 자랑하고 있습니다. 전문가들은 인공 신경망 기계 번역으로 번역의 질이 높아진 것은 사실이지만 관용구 번역에서는 여전히 기계 번역이 고전하고 있다고 말합니다. 기계는 문장을 인간처럼 이해하지 않고, ”디코딩“과 ”문자 대체“ 과정을 통해 번역물을 생산하기 때문입니다. 미묘한 부분이 있는 텍스트는 결코 기계에 의존할 수 없으며, 어떤 말도 안되는 에러가 날지 예측하기 어렵다는 것입니다.
기계 번역 훈련에 사용되는 문서는 이미 번역되어 있는 텍스트들입니다. 주로 UN 문서 같은 공식적인 텍스트들이죠. 하지만 언어는, 특히 젊은 사람들이 쓰는 언어는 너무나 빨리 진화합니다. 고도의 번역 기계도 그때그때 유행하는 어구나 관용어를 다 학습하기가 어렵습니다. 또한 텍스트에 붙어있는 영상이나 그림, 대화에 참여하는 사람들 간의 관계, 문화적인 레퍼런스 같은 것들 역시 기계 번역에서 살리기 어려운 요소들입니다.
샌프란시스코대학의 응용데이터윤리센터장인 레이첼 토머스는 기계 번역이 발전하는 가운데서도 알고리즘과 컴퓨터에 의존하는 사람이면 누구나 시스템의 실수에 의해 영향받을 수 있는 사람들에 대해 생각해야 한다고 말합니다. 입국 허가를 거절당한 난민은 심사 재검토를 요청할 수 있지만, 이들이 애초에 거절 사유에 대해 자세히 안내받는 일은 거의 없습니다.
미국으로 입국하려는 이들의 소셜미디어 계정을 검토하자는 이야기는 오바마 정부 때 처음 나온 이야기이며, 민주당과 공화당 의원들 모두 지지한 사안입니다. 이민국은 소셜미디어 부서를 2016년 7월에 출범시켰고, 시범 프로그램은 2015년부터 운영해왔죠.
트럼프 정부 들어서는 이 같은 조치가 크게 강화되었습니다. 올해 5월, 국무부는 입국 비자 신청 양식에도 소셜미디어 계정을 입력하는 칸을 만들었죠. 9월에는 국토안보부 역시 난민과 망명 신청자는 물론 시민권, 영주권 신청자에 대해서도 소셜미디어 정보를 요구하겠다는 안내를 내놓았습니다. (프로퍼블리카)