Categories: IT경영

기계가 사람 목소리와 발음, 억양으로 글을 읽다

기계가 사람 목소리를 흉내내는 것도 거의 완벽에 가까워졌습니다.

이번달 구글이 발표한 자체 연구보고서를 보면 글자를 음성으로 읽는 시스템 타코트론2(Tacotron 2)는 실제 사람이 글을 읽는 것과 구분하기 어려울 만큼 완벽하게 사람의 목소리를 재현했습니다.

구글이 내놓은 차세대 기술에 해당하는 타코트론2 시스템은 두 개의 복잡한 신경망 구조로 이뤄져있습니다. 먼저 첫 번째 신경망이 글자를 분광사진(spectrogram)으로 바꾸어 읽어냅니다. 분광사진이란 음향 주파수를 시각적으로 표현한 것으로 이해하면 됩니다. 이어 분광사진을 구글의 모회사인 알파벳의 인공지능 연구소 딥마인드가 내놓은 웨이브넷(WaveNet)이란 시스템에 보여주면, 웨이브넷은 사진을 분석해 해당 텍스트를 사람 목소리로 읽습니다.

<쿼츠> 원문에서 실제 구글 직원과 인공지능이 똑같은 문장을 읽은 음성을 확인하실 수 있습니다. 둘 다 실제 사람이 읽은 것처럼 들리고, 좀처럼 기계가 낸 목소리가 무엇인지 구분하기 어렵습니다.

타코트론2는 발음하기 어려운 단어나 이름도 읽어냈습니다. 또한, 문장 부호를 이해하고 그에 맞춰 발음하기도 합니다. 예를 들어 사람들이 문장 안에서 특히 중요한 의미가 있는 단어를 대문자로 써서 강조하는 점에 착안해 타코트론2는 대문자로 쓴 단어를 더 강조해서 읽습니다.

핵심적인 인공지능 연구는 대개 당장의 쓰임새보다 미래를 위한 연구인 경우가 많습니다. 하지만 이 기술은 구글이 당장 활용할 수 있는 기술입니다. 지난해 처음 선을 보인 웨이브넷은 스마트 오디오인 구글 어시스턴트의 목소리에 쓰입니다. 실제 제품에 적용되면 타코트론2를 장착한 오디오 음향은 획기적으로 나아질 것입니다.

다만 현재 시스템이 낼 수 있는 목소리는 여성의 목소리 하나뿐입니다. 남성의 목소리나 다른 여성의 목소리를 내려면 구글은 모든 시스템을 다시 훈련해야 합니다. (쿼츠)

원문보기

ingppoo

뉴스페퍼민트에서 주로 세계, 스포츠 관련 글을 쓰고 있습니다.

View Comments

  • 동굴같은 울림을 가진 남성의 목소리를 원합니다. 여성의 목소리뿐이라니 아쉽군요.

Recent Posts

[뉴페@스프] “돈 때문이 아니다” 최고 부자들이 트럼프에게 정치 후원금을 내는 이유

뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을 쓰고…

16 분 ago

‘백신 음모론자’가 미국 보건 수장 되다… “인신공격은 답 아냐”

트럼프 대통령 당선인이 2기 행정부 인선을 속속 발표하고 있습니다. 정치적으로 논란이 불가피한 인물도 다수 지명된…

21 시간 ago

[뉴페@스프] “레드라인 순식간에 넘었다”… 삐삐 폭탄이 다시 불러온 ‘공포의 계절’

* 뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을…

2 일 ago

[뉴페@스프] 사람들이 끌리는 데는 이유가 있다… ‘이름 결정론’ 따져보니

* 뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을…

4 일 ago

‘예스맨의 절대 충성’ 원하는 트럼프…단 하나의 해답 “귀를 열어라”

트럼프 2기 행정부 인사가 속속 발표되고 있습니다. 대부분 트럼프에게 절대적인 충성을 보여준 이들로, 기존 공화당원들…

5 일 ago

[뉴페@스프] “삶이 송두리째 흔들릴 것” 미국 대선판에 등장한 문건… 정작 묻히고 있는 건

* 뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을…

1 주 ago