Categories: IT경영

기계가 사람 목소리와 발음, 억양으로 글을 읽다

기계가 사람 목소리를 흉내내는 것도 거의 완벽에 가까워졌습니다.

이번달 구글이 발표한 자체 연구보고서를 보면 글자를 음성으로 읽는 시스템 타코트론2(Tacotron 2)는 실제 사람이 글을 읽는 것과 구분하기 어려울 만큼 완벽하게 사람의 목소리를 재현했습니다.

구글이 내놓은 차세대 기술에 해당하는 타코트론2 시스템은 두 개의 복잡한 신경망 구조로 이뤄져있습니다. 먼저 첫 번째 신경망이 글자를 분광사진(spectrogram)으로 바꾸어 읽어냅니다. 분광사진이란 음향 주파수를 시각적으로 표현한 것으로 이해하면 됩니다. 이어 분광사진을 구글의 모회사인 알파벳의 인공지능 연구소 딥마인드가 내놓은 웨이브넷(WaveNet)이란 시스템에 보여주면, 웨이브넷은 사진을 분석해 해당 텍스트를 사람 목소리로 읽습니다.

<쿼츠> 원문에서 실제 구글 직원과 인공지능이 똑같은 문장을 읽은 음성을 확인하실 수 있습니다. 둘 다 실제 사람이 읽은 것처럼 들리고, 좀처럼 기계가 낸 목소리가 무엇인지 구분하기 어렵습니다.

타코트론2는 발음하기 어려운 단어나 이름도 읽어냈습니다. 또한, 문장 부호를 이해하고 그에 맞춰 발음하기도 합니다. 예를 들어 사람들이 문장 안에서 특히 중요한 의미가 있는 단어를 대문자로 써서 강조하는 점에 착안해 타코트론2는 대문자로 쓴 단어를 더 강조해서 읽습니다.

핵심적인 인공지능 연구는 대개 당장의 쓰임새보다 미래를 위한 연구인 경우가 많습니다. 하지만 이 기술은 구글이 당장 활용할 수 있는 기술입니다. 지난해 처음 선을 보인 웨이브넷은 스마트 오디오인 구글 어시스턴트의 목소리에 쓰입니다. 실제 제품에 적용되면 타코트론2를 장착한 오디오 음향은 획기적으로 나아질 것입니다.

다만 현재 시스템이 낼 수 있는 목소리는 여성의 목소리 하나뿐입니다. 남성의 목소리나 다른 여성의 목소리를 내려면 구글은 모든 시스템을 다시 훈련해야 합니다. (쿼츠)

원문보기

ingppoo

뉴스페퍼민트에서 주로 세계, 스포츠 관련 글을 쓰고 있습니다.

View Comments

  • 동굴같은 울림을 가진 남성의 목소리를 원합니다. 여성의 목소리뿐이라니 아쉽군요.

Recent Posts

[뉴페@스프] “응원하는 야구팀보다 강한” 지지정당 대물림… 근데 ‘대전환’ 올 수 있다고?

뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을 쓰고…

2 일 ago

[뉴페@스프] ‘이건 내 목소리?’ 나도 모를 정도로 감쪽같이 속였는데… 역설적으로 따라온 부작용

* 비상 계엄령 선포와 내란에 이은 탄핵 정국으로 인해 한동안 쉬었던 스브스프리미엄에 쓴 해설 시차발행을…

4 일 ago

살해범 옹호가 “정의 구현”? ‘피 묻은 돈’을 진정 해결하려면…

우리나라 뉴스가 반헌법적인 계엄령을 선포해 내란죄 피의자가 된 윤석열 대통령을 탄핵하는 뉴스로 도배되는 사이 미국에서…

5 일 ago

미국도 네 번뿐이었는데 우리는? 잦은 탄핵이 좋은 건 아니지만…

윤석열 대통령에 대한 탄핵 소추안 투표가 오늘 진행됩니다. 첫 번째 투표는 국민의힘 의원들이 집단으로 투표에…

1 주 ago

“부정 선거” 우기던 트럼프가 계엄령이라는 카드는 내쳤던 이유

윤석열 대통령의 계엄령 선포와 해제 이후 미국 언론도 한국에서 일어나는 정치적 사태에 큰 관심을 보이고…

2 주 ago

트럼프, 대놓고 겨냥하는데… “오히려 기회, 중국은 계획대로 움직이는 중”

트럼프 2기 행정부가 출범하면 미국과 중국의 관계가 어떻게 될지에 전 세계가 촉각을 곤두세우고 있습니다. 안보…

3 주 ago