기계가 사람 목소리와 발음, 억양으로 글을 읽다

2017년 12월 28일 | By: ingppoo | IT, 경영 | 1 comment

기계가 사람 목소리를 흉내내는 것도 거의 완벽에 가까워졌습니다.

이번달 구글이 발표한 자체 연구보고서를 보면 글자를 음성으로 읽는 시스템 타코트론2(Tacotron 2)는 실제 사람이 글을 읽는 것과 구분하기 어려울 만큼 완벽하게 사람의 목소리를 재현했습니다.

구글이 내놓은 차세대 기술에 해당하는 타코트론2 시스템은 두 개의 복잡한 신경망 구조로 이뤄져있습니다. 먼저 첫 번째 신경망이 글자를 분광사진(spectrogram)으로 바꾸어 읽어냅니다. 분광사진이란 음향 주파수를 시각적으로 표현한 것으로 이해하면 됩니다. 이어 분광사진을 구글의 모회사인 알파벳의 인공지능 연구소 딥마인드가 내놓은 웨이브넷(WaveNet)이란 시스템에 보여주면, 웨이브넷은 사진을 분석해 해당 텍스트를 사람 목소리로 읽습니다.

<쿼츠> 원문에서 실제 구글 직원과 인공지능이 똑같은 문장을 읽은 음성을 확인하실 수 있습니다. 둘 다 실제 사람이 읽은 것처럼 들리고, 좀처럼 기계가 낸 목소리가 무엇인지 구분하기 어렵습니다.

타코트론2는 발음하기 어려운 단어나 이름도 읽어냈습니다. 또한, 문장 부호를 이해하고 그에 맞춰 발음하기도 합니다. 예를 들어 사람들이 문장 안에서 특히 중요한 의미가 있는 단어를 대문자로 써서 강조하는 점에 착안해 타코트론2는 대문자로 쓴 단어를 더 강조해서 읽습니다.

핵심적인 인공지능 연구는 대개 당장의 쓰임새보다 미래를 위한 연구인 경우가 많습니다. 하지만 이 기술은 구글이 당장 활용할 수 있는 기술입니다. 지난해 처음 선을 보인 웨이브넷은 스마트 오디오인 구글 어시스턴트의 목소리에 쓰입니다. 실제 제품에 적용되면 타코트론2를 장착한 오디오 음향은 획기적으로 나아질 것입니다.

다만 현재 시스템이 낼 수 있는 목소리는 여성의 목소리 하나뿐입니다. 남성의 목소리나 다른 여성의 목소리를 내려면 구글은 모든 시스템을 다시 훈련해야 합니다. (쿼츠)

원문보기