문서를 요약하는 인공지능
트위터나 페이스북에서 공유되는 기사, 혹은 업무에 필요한 문서를 모두 읽는 것은 무척 어려운 일입니다. 정보의 홍수 현상이 점점 더 심해지고 있는 요즘, 이 문제를 해결해줄 것은 인공지능밖에 없을 것 같다는 생각이 듭니다. 어쩌면 언젠가는, 컴퓨터가 모든 기사나 논문을 요약해주는 것이 당연해질지도 모르지요.
세일즈포스 연구진이 개발한 한 알고리듬은 컴퓨터가 문서를 요약하는 세상이 올 수도 있다는 사실을 분명히 보여줍니다. 이 알고리듬은 몇 가지 기계학습 방법을 이용해 긴 글을 놀라울 정도로 논리적이고 정확하게 요약합니다. 물론 아직 사람의 능력에는 비할 수 없지만, 적어도 이 기술이 앞으로 얼마나 발전할 수 있을지를 상상하게는 해줍니다.
예를 들어, 다음은 영국의 선거를 앞두고 빈발하는 가짜뉴스와 싸우는 페이스북에 관한 뉴욕타임스의 기사를 이 알고리듬이 요약한 결과입니다.
– 소셜 네트워크는 지난 월요일 신문에 일련의 광고를 올렸다.
– 이들은 영국에서만 수만 개의 가짜 계정을 없앴다.
– 이들은 또한, 부적절하고 불쾌감을 주는 내용을 감시하는 직원을 3,000명 추가로 고용하겠다고 말했으며, 이는 직원 수를 거의 두 배로 늘리는 것이다.
일반적인 텍스트 요약 정확도를 측정하는 도구로 측정해보면, 세일즈포스가 개발한 이 알고리듬이 내놓는 결과물은 기존의 어떤 알고리듬의 결과물보다도 더 낫습니다.
세일즈포스의 수석과학자인 리차드 소커는 말합니다. “지금까지 자연어 처리 작업에서 이렇게 급격한 향상은 본 적이 없습니다.” 소커는 기계학습 분야와 자연어 처리 분야에서 이름난 학자로, 지난 2016년 세일즈포스가 인수한 메타마인드의 창업자입니다.
물론 문서의 핵심을 파악하는 능력에 있어 아직은 인간과는 큰 차이가 있으며, 때로 결과물이 충분치 않거나 논리적이지 못할 때도 있습니다. 사실 글을 요약하기 위해서는 상식이 있어야 하며 언어 능력도 뛰어나야 하므로 이는 진정한 지능을 필요로 하는 일이라 할 수 있습니다.
사실 언어를 정복하는 것은 아직 인공지능이 이루지 못한 거대한 목표로 남아 있습니다. 하지만 여기에 성공한다면 수많은 상업적 가능성이 열리게 됩니다. 음성이나 글로 이루어진 질문에 적절한 답을 주는 것과 같은 기초적인 기술만으로도 수많은 변화를 만들어낼 수 있으며, 의학, 과학 연구, 법과 같이 전문성을 요하는 분야에서 정보를 요약하고 핵심을 찾아낼 수 있게 된다면, 그 기술은 매우 큰 가치를 가지게 될 것입니다.
개발에 참여한 세일즈포스의 연구원 케이밍 셩은 자신들의 알고리듬이 비록 아직 불완전하지만, 신문 기사를 요약할 수 있으며 고객이 보낸 이메일이 무슨 내용인지도 정리할 수 있다고 이야기합니다. 두 번째 기능은 세일즈포스 사이트에 특히 유용한 기능입니다.
이들이 개발한 알고리듬은 몇 가지 기술의 조합을 사용합니다. 이들은 먼저 지도학습 방법으로 잘된 요약의 사례를 이용해 알고리듬을 학습시켰으며, 또한 입력 결과와 출력 결과에 몇 가지 조작을 가하는 인공지능 기술을 사용했습니다. 이를 통해 다른 기존 알고리듬에서 자주 나타나는 문제인 특정 단어를 너무 자주 반복하는 문제를 해결했습니다.
또한 요약 결과를 다듬기 위해 강화학습을 이용했습니다. 이는 동물이 학습하는 방법에서 아이디어를 얻은 것으로, 특정한 목적에 가까운 결과에는 긍정적인 보상을 주는 방식입니다. 강화학습은 인공 지능이 복잡한 게임을 배우거나 로봇의 움직임을 조절하는 것과 같은 새로운 무언가를 배울 때 유용한 방법입니다. 대화형 인터페이스를 연구하는 이들 또한 강화학습을 통해 성능을 향상하는 방법을 찾고 있습니다.
데이터를 보고 문장으로 된 보고서를 만들어내는 알고리듬을 개발하는 내러티브 사이언스의 창업자이자 노스웨스턴대학의 교수인 크리스티앙 해먼드는 세일즈포스의 연구가 어느 정도 발전을 보여줬지만, 통계적 기계학습 방법에만 의존하는 것은 단점이라고 지적합니다. “적어도 어느 시점이 되면, 더 자연스럽고 유려한 문장을 구사하기 위해서는 의미론과 통사적 지식이 필요하게 됩니다.”
해몬드는 주의 기제 흉내(attention mechanism mimics)라는, 어떤 이가 자신이 앞서 말했던 내용을 참고로 말하는 현상을 아주 단순한 수준에서 모사할 필요가 있다고 말합니다. “우리가 무언가를 말할 때, 그 내용의 구체적인 의미는 그 전에 말했던 내용의 맥락과 관계됩니다. 이런 특징을 이용할 필요가 있습니다.”
컴퓨터의 언어 능력을 향상하는 것은 인공지능의 발전에도 매우 중요한 요소입니다. 올해 초 마이크로소프트에 인수된 스타트업 말루바는 주어진 문서에서 적절한 질문을 만들어내는 알고리듬을 개발했습니다. 말루바 연구팀 역시 지도 학습과 강화학습의 조합을 사용했습니다.
말루바의 선임 연구원인 아담 트리쉴러는 적절한 질문을 던지는 것은 학습에 매우 중요한 능력이며 이를 이용해 지식을 축적하는 인공지능을 만들 수 있다고 말합니다. “궁극적인 목적은 대화 중에 질문과 대답을 할 수 있는 능력입니다. 인공지능이 스스로 밖으로 나가 정보를 수집하고, 질문을 만들어낼 수 있게 된다면 어떻게 될까요?”
(MIT Technology Review)