차원이 다른 구글 번역기의 도래 (8)
구글이 인간의 신경망을 본뜬 인공신경망에 딥러닝을 적용해 지금까지 우리가 알던 번역기와는 차원이 다른 인공지능 번역기를 선보였습니다. 지난달 14일 새로운 구글 번역기를 집중적으로 분석한 뉴욕타임스의 기사 “The Great A.I. Awakening”을 소개합니다.
2부: 언어를 구사하는 기계
5. 다음 목표는 언어
구글 브레인은 구글 안에서도 가장 자유로운 분위기를 자랑한다. 브레인 팀원들은 구글 안에서 가장 존경받는 직원들이기도 하다. 현재 브레인의 팀원 수는 꾸준히 늘어나 100명 정도로 늘어났는데, 구글 브레인은 대기업 안에 있는 부서라기보다는 학술 동호회나 마음 맞는 사람끼리 만든 동아리, 아니면 마치 은하계 어딘가에 있는 술집처럼 보일 때도 있다. 현재 구글 브레인은 구글 본사가 위치한 캘리포니아 마운틴 뷰 캠퍼스 내 나무가 무성한 북서쪽 끝자락에 있는 2층짜리 건물에 자리 잡고 있다. 무광택 페인트로 칠한 건물에는 칙칙한 짙은 회색 창문이 커다랗게 나 있다. 휴게실로 쓰이는 마이크로키친에는 푸즈볼(foosball) 게임기가 있는데, 브레인 팀 직원들이 이 게임을 하는 모습은 한 번도 보지 못했다. 비디오 게임 록밴드(Rock Band)도 있었지만 아무도 안 하는 것 같았고, 직원들이 마이크로키친에서 바둑을 두는 모습은 몇 번 봤다. 한 번은 브레인 팀의 젊은 연구원 한 명이 동료에게 잘 익은 거대한 열대과일 잭프루트를 깎아주는 걸 본 적이 있는데 커다란 공 같은 잭푸르트는 마치 칠면조 같았다.
취재차 구글 브레인 사무실에 본격적으로 드나들기 시작한 건 지난 6월부터다. 처음에는 사무실 안에도 빈자리가 꽤 있었다. 빈 책상에는 대개 “제시, 6/27부터 출근” 같은 포스트잇이 붙어있었다. 이제는 모든 책상에 주인이 생겨 빈자리를 찾을 수 없다. 여름에는 주차 걱정할 필요가 없었다. 건물 출입구에서 가장 가까운 자리만 임산부 혹은 테슬라 전용 주차 구역이었을 뿐 주차 공간은 대체로 여유가 있었다. 하지만 팀원이 빠르게 늘어나면서 10월이 되자, 9시 반 넘어서 도착하면 차를 댈 곳이 없어 길 건너 다른 주차장을 이용해야 할 정도로 차가 많아졌다.
브레인 팀의 가파른 성장에 제프 딘은 회사가 급증하는 수요를 어떻게 감당할지 한 편으로 불안해졌다. 그는 구글 안에서 “성공의 비극”이라 불리는 문제에 봉착하지 않을까 걱정했다. 성공의 비극이란 회사의 역량이 제품을 서비스할 수 있는 실제 능력을 갑자기 빠르게 앞질러 결과적으로 무리수를 두게 되는 상황을 뜻한다. 제프 딘은 간단한 계산을 토대로 작성한 두 장짜리 프레젠테이션을 통해 경영진에 자신의 우려를 전하기도 했다. 직관적으로 이해할 수 있는 계산이었다.
“안드로이드 폰을 쓰는 모든 사람이 하루에 3분씩만 전화기에 대고 (인공지능과) 대화를 한다고 가정해 봅시다. 지금 저희 컴퓨터 기반으로는 이를 감당 못 해요. 당장 지금보다 컴퓨터 연산 능력을 두세 배는 늘려야 하는 일입니다.”
딘은 눈을 크게 뜨며 침을 한 번 꿀꺽 삼키고 말을 이었다.
“꽤 두려운 일이죠. 당장 컴퓨터 기반 시설을 새로 지어야 한다는 소리니까요.”
상상만 해도 머뭇거리게 되는 어마어마한 일이었다.
다른 방법이 있기는 했다. 새로운 칩을 고안해 대량 생산한 뒤 이를 곳곳에 분산된 데이터 센터에 설치하면 처리 속도를 높일 수 있었다. “텐서 처리장치(tensor processing units)”, 혹은 T.P.U.라 불리는 새로운 칩의 장점은 기존의 일반 칩보다 정확성이 떨어진다는 데 있다. 그렇다. 덜 정확한 게 장점이다. 텐서 처리장치는 12.246 곱하기 54.392의 정확한 값을 구해주는 대신 12 곱하기 54의 값을 더 빨리 계산해 내놓는 식이다. 수학적인 차원에서 보면 신경망이라는 것은 결국 수백, 수천, 수십만의 연속한 행렬 곱셈이다. 그래서 아주 세세한 부분까지 정확성을 따지기보다는 계산을 빨리 처리하는 게 훨씬 더 중요한 기준이 된다. 딘은 이렇게 말했다.
“특수한 목적을 수행하고자 만든 하드웨어는 보통 쓸모가 많지 않아요. 그런 하드웨어는 한 가지 임무를 빨리 처리하는 데만 특화돼 있기 마련이죠. 하지만 신경망은 범용 하드웨어라고 보시면 됩니다. 일반적인 상황에서 다양한 임무가 주어지면 신경망을 토대로 갖가지 특수 목적 하드웨어를 적재적소에 쓸 수 있죠.”
텐서 처리장치 칩 재발이 거의 완료될 즈음 쿽 레와 동료 두 명은 신경망이 언어 구조를 스스로 이해하고 처리할 수 있음을 증명해냈다. 레는 “단어 표현”으로 번역되는 “워드 임베딩(word embedding)” 기법을 토대로 연구를 진행했다. 사실 워드 임베딩 기법의 아이디어 자체는 10년도 더 전에 생긴 것으로 전혀 새로울 것이 없었다. 우리는 이미지를 요약할 때 각 단계의 요약이 어떤 식으로 진행될지 직감적으로 안다. 예를 들면 가장자리가 어떻고, 이미지 어디쯤 있는 동그라미가 어떻고 하는 식으로. 언어를 비슷한 방식으로 요약하면 어떻게 될까? 일반적인 용례에 따라 단어별로 나머지 단어들과의 벡터를 나타낸 다차원적인 지도 하나가 그려진다. 기계가 언어 데이터를 분석하는 방법은 인간이 하는 것과 다르다. 우리는 품사에 따라 명사가 어떻고 동사가 어떻고 이 문장이 그래서 무슨 뜻인지를 인간의 문법으로 분석하지만, 기계는 각 단어 사이의 벡터값을 토대로 단어 지도를 이렇게 비틀어보고 저렇게 비틀어보며 언어를 분석한다. 이 지도는 2차원상에서는 아무런 쓸모가 없다. 예를 들어 같은 반려동물이라는 범주에서 볼 때 고양이와 개는 멀지 않은 지점에 위치할 것이다. 하지만 이렇게 두 개를 위치시키고 나면 2차원 지도는 끝이다. 고양이와 멀지 않은 곳에 위치해야 할 또 다른 단어는 수없이 많다. 꼬리, 누군가를 얕보는 듯한 거만함, (비유전적 문화 요소를 뜻하는) 단어 밈(meme) 등이 모두 고양이와 연관이 있다. 연관이 있는 정도도 단어마다 물론 다르다. 이를 모두 담아내려면 그만큼 다차원 지도가 있어야 한다. 16만 차원의 지도를 그리는 일은 까마득한, 불가능한 일이다. 하지만 레는 다행히도 언어를 표현하는 데는 그 정도로 복잡하지는 않은, 약 1천여 차원의 지도만 있어도 충분하다는 결론을 내렸다. 즉, 다른 1천여 개 단어와의 관계를 각각 정리하면 한 단어의 벡터값을 알 수 있고, 이를 토대로 단어를 분석해 언어를 이해하고 구사할 수 있다는 것이다. 내가 자꾸 1천 차원을 머릿속에서 그리면 어떤 모습일지 설명해 달라고 조르자 레는 예의 무뚝뚝한 표정으로 내게 핀잔을 주었다.
“기디온, 우리가 사는 세계가 3차원 세계라는 거 아시죠? 그래서 저는 1천 차원이 어떨지 시각화해보려는 생각조차 안 해봤어요.”
하지만 이 엄두도 못 낼 만큼 복잡한 차원에서도 특정 지점의 몇몇 특징은 우리의 기존 관념을 토대로 이해할 수 있다. 성별이나 상대적인 크기 등이 여기에 해당하는데, 예를 들면 다음과 같다. 왕을 뜻하는 단어 “king”에 관련된 단어와의 거리, 특징에서 여왕을 뜻하는 단어 “queen”에 관련된 단어와의 거리, 특징을 빼고 나면 얻는 값은 남자를 뜻하는 단어 “man”에서 여자를 뜻하는 단어 “woman”을 뺐을 때 얻는 값과 같다. 영어와 프랑스어에 관한 모든 공간, 관계 지도를 완전히 파악하고 이를 신경망에 학습시키면 이론적으로는 한 언어로 표현한 문장을 다른 언어로 정확하게 옮길 수 있게 된다. 수많은 영어 문장과 그 문장을 프랑스어로 적확하게 옮긴 문장을 입력해 훈련을 거듭하다 보면, 기계는 점차 이미지를 판별하고 분류할 때 각각의 픽셀에 나타나는 패턴을 인지하듯 각각의 단어 사이에서 패턴을 발견해 익힐 것이다. 이제 기계에 영어 문장을 입력하고 이를 프랑스어로 옮겨달라고 하면 기계는 학습한 패턴을 바탕으로 알맞은 프랑스어 문장을 찾아낸다.
다만 단어와 이미지를 구성하는 픽셀의 가장 큰 차이는 픽셀은 시차 없이 동시에 이미지를 구성하고 있지만, 단어는 하나씩 순서대로 시차를 두고 입력된다는 데 있다. 그래서 네트워크가 여러 단어로 이루어진 문장이나 문단을 통째로 인식할 수 있도록 하는 방법을 찾아야 했다. 2014년 9월 약 일주일 사이에 논문 세 편이 동시에 나왔다. 하나는 쿽 레가 쓴 논문이었고, 다른 두 편은 각각 캐나다와 독일 연구진이 쓴 논문이었는데, 모두 기계가 시차를 두고 나타나는 입력값을 동시에 인식하도록 하는 방법을 연구한 논문이었다. 이 연구를 바탕으로 구글 브레인은 기계가 미술이나 음악을 창작할 수 있는지 살펴보는 마젠타(Magenta) 프로젝트를 시작했다. 또한, 기계 번역과 같은 중요한 작업에 필요한 주춧돌이 마련됐다. 제프리 힌튼 교수는 이때 내게 이제 막 착수한 프로젝트가 성과를 내려면 최소한 5년 정도는 걸릴 것으로 보인다고 말했다. (뉴욕타임스)
다음은 오늘 소개한 부분의 영어 원문을 구글 번역기가 우리말로 옮긴 것입니다. (맞춤법, 띄어쓰기, 문장의 종결 어미, 고유명사 등은 일부 고쳤습니다)
—–
2부: 언어 기계
5. 언어의 전원을 켭니다
뇌의 백 정도 현재 회원 – 종종 적게는 클럽이나 학력 사회 나 은하계 칸 티나가보다 거대한 기업 계층 구조 내에서 부서 같은 느낌 – 자유롭고 가장 널리 존경 직원들 사이에서 계산 개입 년 동안왔다 전체 Google 조직이다. 큰 창문이 회사의 주요 마운틴 뷰 캠퍼스의 잎이 많은 북서부 프린지에, 협박 진회색 착 색으로 그들은 지금, 계층이 층 달걀 껍질 건물에 등분한다. 그들의 마이크로 키친 내가 사용하는 본 적이없는 주최 테이블이 있다; 내가 사용하는 본 적이 락 밴드 설정; 나는 보았다 이동 키트는 몇 가지 경우에 사용된다. (I는 한 번 젊은 뇌 연구 담당자가, 잘 익은 잭 프루트에 그의 동료를 소개 칠면조처럼 거대한 뾰족한 구를 조각 참조했다.)
나는 뇌의 사무실에서 시간을 보내는 시작했을 때 6 월에, 빈 책상의 일부 행이 있었다. 그러나 대부분은 표지 된 포스트 – 그것과 같은 것들을 말했다 노트 “제시, 6/27을.”이제 사람들은 모두 점령하고 있다. 내가 처음 방문했을 때, 주차 문제가 아니었다. 가장 가까운 공간은 임산부 또는 테슬러 예약 사람들을 했지만, 로트의 나머지 부분에 충분한 공간이 있었다. 나는 9:30 이후에 나타났다 경우 10 월, 나는 거리를 가로 질러 지점을 발견했다.
뇌의 성장은 회사가 요구를 처리하기 위해가는 방법에 대한 딘은 약간 긴장했다. 이론에있는 회사의 능력이 실제로 제품을 구현하는 능력을 능가하는 상황 – 그는 “성공 재해”로 알려져 구글에서 무엇을 피하기 위해 원했다. 특정 시점에서 그는 두 슬라이드 프레젠테이션에서 어느 날 경영진에게 제시 몇 백 – 중 – 봉투 계산을했다.
“미래에 모든 사람이 삼분 하루 동안 자신의 안드로이드 전화로 말을하면,” 그는 그들에게 “이것은 우리가 얼마나 많은 기계입니다 필요하겠다.” 그들은 두 번이나 글로벌 계산 발자국을 배로 해야 한다.
“즉, ” 그가 작은 연극 꿀꺽 꿀꺽 및 확대의 눈으로 관찰, “무서운 소리. 당신은 ‘ (D)에있다 ” – 그 결과를 상상하기 망설 – ” 새로운 건물을 구축 할 수 있다.”
또 다른 옵션은, 그러나,이 있었다 : 그냥 대량 생산, 설계 및 분산 된 데이터에 설치 한 센터들은 빨리 모든 것을 할 수있는 칩의 새로운 종류. 이 칩은 TPU에, 또는 “텐서 처리 장치,”자신의 가치를 호출 할 것 – 직관과는 반대로 – 그들은 의도적으로 일반 칩보다 정확한 있다는 것입니다. 12.246 회 54.392을 계산하는 것이 아니라, 그들은 신경 네트워크가 수행 행렬 곱셈의 수천 수백 또는 수천 또는 수만 단지 구조화된 일련 오히려 은유한 것보다, 수학 수준에 당신에게 12 회 (54)에 대한 형식적인 대답을 줄 것이다. 연속 아웃하고는 정확하게보다 이러한 프로세스가 빠른 것이 훨씬 더 중요하다. “일반적으로,” 딘은 말했다, “특수 목적 하드웨어는 나쁜 생각입니다. 보통 한 가지를 가속화하기 위해 노력하고 있습니다. 그러나 때문에 신경 네트워크의 일반성, 당신은 다른 많은 것들이 특수 목적 하드웨어를 활용할 수 있습니다.”
칩 설계 프로세스가 거의 완료 한 것처럼 레 두 동료 마지막 신경망 언어의 구조를 처리하도록 구성 될 수 있음을 보여 주었다. 그는이었다라는 생각, “단어 묻어”에 그린 10 년 이상 주변 . 당신이 이미지를 요약하면 요약의 각 단계의 모습의 사진 신성 수 – 등이 유사한 방식으로 언어를 요약하면 가장자리, 원을, 당신은 기본적으로 일반적인 사용에 따라, 거리의 다차원 맵을 생성 하나의 말과 언어 하나 하나 다른 단어 사이. 기계는 방식으로 데이터를 “분석”되지 않도록 우리 수도, 동사 등의 명사와 다른 사람으로 그 중 일부를 식별 언어 규칙. 대신, 이동 및 비틀림 및지도에 주변의 단어를 휘게된다. 두 가지 차원에서, 당신이지도가 유용 할 수 없습니다. 당신이 시도하려는 때문에 “밈”당신이 원하는, 예를 들어, “고양이”는 “개”의 거친 근처에있을 수 있습니다하지만 당신은 또한 “고양이”근처 “꼬리”근처 “얕보는”가까운되고 싶어 다른 모든 관계를 캡처 – 강하고 약한 두 – 단어 “고양이”다른 단어가있다. 그것은 그것을 다른 차원에서 그들 각각에 관련된 경우에만 동시에 모든 다른 단어와 관련 될 수있다. 당신은 쉽게 160,000 차원지도를 만들 수는 없지만, 당신이 단순한 천 정도 크기에서 꽤 잘 언어를 나타낼 수 있습니다 밝혀 – 즉, 우주가있는 각 단어는 천 번호 목록에 의해 지정된다 . 르가이지도의 정신 사진에 대한 내 지속적인 요청에 대해 나에게 좋은 성질이 힘든 시간을 주었다. “기드온은,”그는 “나는 일반적으로 3 차원 공간에 천 차원 벡터를 시각화하려고 좋아하지 않는다.”바틀비의 무딘 일반 demurral으로 말할 것.
그럼에도 불구하고, 공간의 특정 크기, 그것은 성별 상대적 크기와 같은 읽기 쉬운 인간의 범주를 나타내는 것 같다 않았다 밝혀졌다. 당신은 문자 그대로 “왕”을 의미하고, 천 번호를했다 경우 만 공제 는 경우가 숫자에서 “여자”에 대한 숫자를 뺀 것처럼 “남자.”같은 수치 결과를 얻었다 그리고 “여왕”의미 천 번호를 당신은, 당신은 적어도 이론적으로 하나의 공간에서 문장을 다른에 해당하는 제안하는 방법은 네트워크를 훈련 할 수있는 영어와 프랑스어의 전체 공간의 전체 공간을했다. 당신은 한쪽과 다른 한편으로는 자신의 원하는 프랑스어 출력에 입력으로 그것을 수백만와 영어 문장의 수백만 제공했고, 이미지 분류 픽셀에 해당 패턴을 인식하는 시간을 통해 그 단어의 관련 패턴에게 방법을 인식 할 것이다. 그런 다음 그것을 영어로 문장을주고 최고의 프랑스어 아날로그를 예측하도록 요청할 수 있다.
단어와 화소들 사이의 큰 차이는 있지만, 즉 시간에 걸쳐 진행하는 반면에 표시하는 화상의 모든 화소가 동시에 존재한다는 것이다. 전체 경로를 마지막으로 첫 번째 단어에서 – 당신은 네트워크가 연대 기적 순서의 진행 “마음에 개최”할 수있는 방법이 필요했습니다. 일주일 정도의 기간에서 9 월 2014 년, 세 개의 논문이 나왔다 – 르 하나 의 학자에 의해 두 개의 다른 캐나다 와 독일 – 에서 마지막으로 이런 종류의 작업을 수행하는 데 필요한 모든 이론적 도구를 제공하는 것이다. 그 연구는 뇌와 같은 개방형 프로젝트에 대해 허용 ‘ 의 마젠타, 기계 예술과 음악을 생성하는 방법에 대한 조사. 또한 기계 번역 같은 악기 작업을 향해 길을 지워. 힌튼은 (는)이 후속 작업은 적어도 다섯 년 이상 걸리는 시간에 생각 하더군요.