AI, 5천년을 연습해 인간을 게임에서 이기다

2018년 6월 28일 | By: consilience | IT | No Comment

인공지능이 보드게임에서 인간을 이기는 일은 이미 유행이 지난 이야기가 되었습니다. 이제 최고의 학자들과 테크 회사들은 비디오 게임에서 인간에게 도전하고 있습니다. 일론 머스크와 샘 알트만이 설립한 OpenAI 연구소는 인공지능 봇bot 팀이 인기 전투 게임인 도타2 (Dota 2) 의 상위 1% 아마추어 게이머들을 이길 수 있다는 새로운 이정표를 발표했습니다.

2017년 8월 OpenAI가 처음 도타 2 세계에 등장해서 1대1 게임에서 최고 플레이어들을 이길 수 있는 시스템을 공개한 것을 기억할 것입니다. OpenAI는 봇들을 업그레이드시켜 더 많은 협력과 더 긴 시간의 계획이 필요한 5대5 게임에서 인간 플레이어를 상대할 수 있게 되었습니다. OpenAI가 게임의 최강 플레이어에게 도전하는 가운데, 2018년 말 e-스포츠 최대 연간 이벤트인 도타 2 토너먼트 The International에서 인간 게이머들에게 맞설 것입니다.

이런 종류의 연구 동기는 매우 간단합니다. 우리가 AI 시스템에게 비디오 게임을 하는데 필요한 기술을 가르치는데 성공한다면, 도시의 교통 시설 관리같은 비디오 게임을 닮은 현실의 복잡한 문제를 푸는데 사용할 수 있습니다.

OpenAI의 공동 설립자이자 기술 최고 책임자인 그레그 브록만은 Verge에 “실제 응용 프로그램으로 전환할 수 있는 일이기 때문에 매우 흥미로운 이정표입니다. 어떤 문제의 시뮬레이션을 가지고 있을 경우 충분히 대규모로 실행할 수 있습니다. 이런 기술로 수행할 수 있는 작업에는 장벽이 없죠.”라고 밝혔습니다.

기본적으로 비디오 게임은 체스나 바둑 같은 보드게임에는 없는 다른 종류의 난제를 가지고 있습니다. 비디오게임은 플레이어에게 정보를 다 보여주지 않는데, 인공지능 역시 가장 좋은 다음 움직임을 계산할 때에 전체 게임 필드를 볼 수 없다는 의미입니다. 또, 비디오 게임에는 처리해야 할 정보가 더 많고 가능한 움직임의 숫자도 상당히 많습니다. OpenAI의 도타2 봇은 게임의 매 순간마다 게임에서 일어나고 있는 일을 알려주는 20,000개의 데이터 포인트를 처리하면서 1,000개의 다른 행동 중에 하나를 선택해야 합니다.

연구소는 봇을 만들 때 강화 학습이라고 알려진 머신 러닝 방법을 사용했습니다. 강화 학습은 매우 복잡한 행동을 만들어 낼 수 있는 믿을 수 없을 만큼 간단해 보이는 테크닉입니다. 인공지능 에이전트는 가상 환경에서 시행착오를 통해 어떻게 목표에 도달할 수 있는지 자기 자신을 학습시킵니다. 프로그래머는 보상 기능(예를 들면 적을 죽이면 봇에게 포인트로 상을 주는)을 설정하고 인공 지능 에이전트가 계속 반복하여 게임을 하게 놓아둡니다.

이 새로운 도타 봇들의 게임 플레이양은 엄청났습니다. 봇들은 매일 빠른 속도로 180년 분량의 게임을 했고 이 속도로 몇 달간 훈련을 계속했습니다. 브록만은 “처음에는 그냥 지도를 돌아다니는 것처럼 상당히 임의로 게임을 시작했습니다.그리고, 몇 시간 후에 봇들은 기본 기술을 배우기 시작했습니다.”고 말했습니다. 그는 덧붙여 인간이 프로가 되는데 12,000시간에서 20,000시간이 걸린다고 한다면, OpenAI 에이전트는 “매일 100번의 인간 생애를 경험하는 셈” 이라고 말했습니다.

한편, 이 연구는 현대 머신 러닝법과 방대한 양의 데이터를 처리하는 최신 컴퓨터 칩의 힘에 대한 증거이기도 합니다. 다른 한 편으로는 얼마나 인공지능 에이전트가 지능이 낮은지를 상기시켜주는 결과이기도 합니다. 인간이 하나의 비디오 게임을 하는 법을 배우는데 수천 년이 걸렸다면 우리 인간 종은 크게 발전하지 못했을 겁니다.

OpenAI의 봇이 5대5 게임을 하고 있지만 아직 도타2 게임 전체의 복잡함을 경험했다고는 볼 수 없으며 아직 많은 한계가 있습니다. 봇들은 115개의 영웅 캐릭터 중에 각자 게임 스타일이 있는 5개 영웅만을 사용하고 있습니다 (봇들이 선택한 캐릭터는 강령사제, 저격수, 바이퍼, 수정의 여인과 리치입니다).

상인들에게 구입할 아이템이나 게임 내 경험 포인트로 레벨을 올릴 스킬을 선택하는 것 같은 결정을 내리는 과정의 특정 요소는 프로그래머에 의해 하드코딩되었습니다. 원격 카메라로 작동하고 높은 수준의 게임에 필수적인 아이템인 투명화, 소환, 와드 배치 같은 게임의 까다로운 부분들 또한 비활성화 되었습니다. (어떤 게임 가이드가 “새로운 게이머를 가장 혼란스럽게 하는 것은 무엇보다 와드ward 다”라고 설명한 바와 같이)

OpenAI 에이전트는 우리가 기대하는 컴퓨터의 모든 장점을 가지고 있습니다. 인간보다 더 빨리 반응하고, 단 한 번의 클릭도 실수하는 법이 없고 아이템 인벤토리 같은 데이터를 정확하게 찾고, 영웅의 건강 유지나 특정 마술을 사용하기 위해 꼭 필요한 지도에서 물체 사이의 거리 측정같은 작업을 아주 잘 수행할 수 있습니다. 이 모든 작업은 인간 게이머는 수동으로 확인하거나 본능적으로 판단해야 하는 정보입니다.

이 모든 상황이 봇의 능력에 의문을 제기하는 것으로 보이겠지만, 브록만은 핵심에서 벗어난 것이라고 주장합니다. 평균 45분이 걸리는 도타2 게임 전체를 할 수 있는 능력이 바로 OpenAI 에이전트가 차별화되는 부분이라고 합니다. 이렇게 장기 계획을 세우는 능력은 강화 학습으로 가르치기 어렵거나 심지어 불가능하다고 생각되었지만, OpenAI의 연구는 상반된 결과를 보여주었습니다. 브록만은 자신의 성공은 문제를 해결하는 컴퓨터 연산 능력을 추가했기때문이라고 밝혔습니다. “이건 정말 규모의 문제이죠.”

협력을 연구하는데 컴퓨터 게임을 사용하고 있는 바스 대학교의 인공지능 연구자 안드레아스 테오도루는 5대5 게임의 최근 연구는 커다란 진전이라고 말했습니다. 그리고 OpenAI의 가장 “중대한 발전”은 에이전트를 디버깅하는데 시각화를 사용한 부분임을 강조했습니다. (인터랙티브 시각화는 여기서 볼 수 있습니다) “이 기술은 강화 학습과 머신 러닝 시스템이 대체로 어떻게 투명할 수 있는지를 보여줍니다” 라고 테오도루는 Verge에 말했습니다. 특히 교육적인 목적에서 이런 부가적인 기능이 “시스템의 가치를 높인다”고 덧붙였습니다.

연구자들이 봇의 협업을 격려하는 별도의 보상 기능 또한 주목할만한 부분이라고 테오도루는 말했습니다. “팀 정신”이라고 명명된 이 보상 기능은, 경기가 치러지면서 점점 증가했습니다. 봇들은 더 많이 죽여 랭킹 올리기 같은 개별적인 목표를 추구하면서 게임을 시작했지만 시간이 지나면서 좀 더 공동의 목표에 집중했습니다.

브록만은 인간 게이머들과 달리 봇은 “이기심”은 전혀 존재하지 않는다고 합니다. “봇들은 더 큰 이익을 위해 레인을 희생하거나 영웅을 기꺼이 내버렸습니다. 재미를 위해 다섯 개의 봇 중 하나를 인간 플레이어와 대체해 보았는데, 봇에게 특별히 더 무엇을 하라고 지시하지 않았는데도 인간 플레이어는 봇에게 너무나 큰 지원을 받았다고 느꼈습니다. 인간이 무엇을 원하든 봇이 가져다 주었습니다.”

OpenAI의 봇으로 이루어진 팀은 지금까지 아마추어와 세미프로 팀을 상대로 다섯번의 멀티게임 매치를 치렀고, 그 중 4게임을 이기고 1게임을 비겼습니다. 하지만 더 큰 도전은 올해 말에 있을 The International 대회입니다. 완벽한 타이밍과 이기적이지 않은 기계들은 보다 유연하고 본능적으로 게임을 하는 인간 프로게이머들에게 대항할 수 있을까요? 지금은 누구든 이길 수 있는 게임처럼 보입니다. (Verge, James Vincent)

원문 보기