Categories: IT경영

기계가 사람 목소리와 발음, 억양으로 글을 읽다

기계가 사람 목소리를 흉내내는 것도 거의 완벽에 가까워졌습니다.

이번달 구글이 발표한 자체 연구보고서를 보면 글자를 음성으로 읽는 시스템 타코트론2(Tacotron 2)는 실제 사람이 글을 읽는 것과 구분하기 어려울 만큼 완벽하게 사람의 목소리를 재현했습니다.

구글이 내놓은 차세대 기술에 해당하는 타코트론2 시스템은 두 개의 복잡한 신경망 구조로 이뤄져있습니다. 먼저 첫 번째 신경망이 글자를 분광사진(spectrogram)으로 바꾸어 읽어냅니다. 분광사진이란 음향 주파수를 시각적으로 표현한 것으로 이해하면 됩니다. 이어 분광사진을 구글의 모회사인 알파벳의 인공지능 연구소 딥마인드가 내놓은 웨이브넷(WaveNet)이란 시스템에 보여주면, 웨이브넷은 사진을 분석해 해당 텍스트를 사람 목소리로 읽습니다.

<쿼츠> 원문에서 실제 구글 직원과 인공지능이 똑같은 문장을 읽은 음성을 확인하실 수 있습니다. 둘 다 실제 사람이 읽은 것처럼 들리고, 좀처럼 기계가 낸 목소리가 무엇인지 구분하기 어렵습니다.

타코트론2는 발음하기 어려운 단어나 이름도 읽어냈습니다. 또한, 문장 부호를 이해하고 그에 맞춰 발음하기도 합니다. 예를 들어 사람들이 문장 안에서 특히 중요한 의미가 있는 단어를 대문자로 써서 강조하는 점에 착안해 타코트론2는 대문자로 쓴 단어를 더 강조해서 읽습니다.

핵심적인 인공지능 연구는 대개 당장의 쓰임새보다 미래를 위한 연구인 경우가 많습니다. 하지만 이 기술은 구글이 당장 활용할 수 있는 기술입니다. 지난해 처음 선을 보인 웨이브넷은 스마트 오디오인 구글 어시스턴트의 목소리에 쓰입니다. 실제 제품에 적용되면 타코트론2를 장착한 오디오 음향은 획기적으로 나아질 것입니다.

다만 현재 시스템이 낼 수 있는 목소리는 여성의 목소리 하나뿐입니다. 남성의 목소리나 다른 여성의 목소리를 내려면 구글은 모든 시스템을 다시 훈련해야 합니다. (쿼츠)

원문보기

ingppoo

뉴스페퍼민트에서 주로 세계, 스포츠 관련 글을 쓰고 있습니다.

View Comments

  • 동굴같은 울림을 가진 남성의 목소리를 원합니다. 여성의 목소리뿐이라니 아쉽군요.

Recent Posts

[뉴페@스프] 경합지 잡긴 잡아야 하는데… 바이든의 딜레마, 돌파구 있을까

* 뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을…

2 일 ago

데이트 상대로 ‘심리 상담’ 받는 사람을 선호한다고? 운동만 자기 관리가 아니다

보스턴 대학에서 일하는 정신과 의사가 ‘자녀의 정신 건강에 과몰입하는 미국 부모들’에 대한 칼럼을 기고 했습니다.…

3 일 ago

[뉴페@스프] 습관처럼 익숙한 것 너머를 쳐다볼 때 비로소 보이는 것

* 뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을…

5 일 ago

‘사이다 발언’에 박수 갈채? 그에 앞서 생각해 볼 두 가지 용기

하마스가 이스라엘을 상대로 테러 공격을 벌인 뒤 그에 대한 반격으로 시작된 이스라엘의 가자지구 군사 작전…

6 일 ago

[뉴페@스프] 점점 더 커지는 불평등의 ‘사각지대’가 있다

* 뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을…

1 주 ago

선거제 허점 악용해도 견제할 방법, 저기도 없네?!

미국 대선에서는 주별로 배정된 선거인단의 투표 결과를 집계해 과반(최소 270명)을 득표한 사람이 당선됩니다. 선거인단을 어떻게…

2 주 ago