무의미한 행동의 의미: 내재적 동기와 인공지능(1/2)
2017년 4월 11일  |  By:   |  과학  |  No Comment

나는 수면 부족에 시달리는 친구가 아기에게 무언가를 먹이려 애쓰는 모습을 보며 웃습니다. 아기는 정말 배가 고플 때조차 음식을 그대로 입에 넣지 않을 것 같습니다. 허기를 채우기보다 바나나 조각을 손으로 뭉개고 시리얼을 바닥에 던집니다.

이 작은 괴물의 이런 무의미해 보이는 행동은 다른 상황에서도 발견됩니다. 크리스마스 아침에는 선물로 주어진 인형을 가지고 노는 대신 포장지를 구기며 놀고, 욕조에서는 아빠의 얼굴에 물을 뿌리며, 스마트폰 화면을 마음대로 눌러 곤란한 상황을 만듭니다. 발달심리학자들은 이런 종류의 행동을 맛있는 음식 같은 특정한 보상이 아닌 그 행동 자체가 목적이 된다는 점에서 “내재적 동기(intrinsically motivated)”를 가진다고 표현합니다.

그러나 이 내재적 동기는 그저 “무의미(pointless)”한 것이 아니며 아기가 주변 환경을 배워가는 중요한 과정입니다. 바나나 조각이나 쿠키를 가지고 놀면서 아기는 그 대상의 물리적 성질을 익힙니다. 이를 통해 아기는 쿠키나 바나나를 먹을 때 쿠키는 강하게, 바나나는 부드럽게 쥘 수 있습니다. 이런 내재적 동기에 관한 연구는 인간의 발달 과정을 이해하는 데 많은 기여를 했습니다. 지난 수십 년 동안 이 분야의 연구는 더 나은 인공지능을 만드는 데 도움을 주었고, 로봇을 만드는 데도 그러할 것입니다.

과학자들은 인공지능을 가진 개체가 무언가를 배우고 행하게 하기 위해 특정 행동, 곧 무언가를 찾거나 특정한 곳으로 가는 등의 행동에 보상을 줍니다. 이는 음식이나 돈과 같이 어떤 필요를 채우는 것과 비슷한 행동으로 “외재적 동기(extrinsic motivation)”라 부릅니다. 그러나 내재적 동기를 부여하려면 더욱 정밀한 묘사가 필요합니다.

한 가지 방법은 어떤 행동이 예측하지 못한 결과, 곧 “놀라운” 결과를 가져올 때 우리는 그 결과를 만든 행동을 반복한다는 것입니다. 그러나 이 방법은 아무런 의미 없이 그저 랜덤한 결과가 따르는 행동이 있을 때 이를 무한정 반복하게 만드는 결과를 낳을 수 있습니다. 1990년대 초, 컴퓨터 과학자 유어겐 슈미트후버(Jürgen Schmidhuber)는 인공지능에 내재적 동기를 부여할 수 있는 보다 유용한 방법을 제시했습니다. 그것은 특정 행동이 후속 사건을 더 잘 예측하게 만들 때 그 행동을 반복하게 하는 것입니다.

간단한 예로 스마트폰의 어떤 버튼을 눌렀을 때 LED 등이 들어온다면, 우리는 이 버튼을 몇 번 더 눌러보고자 하는 충동을 가지며, 실제로 버튼을 눌러 봄으로써 우리는 이 버튼을 누르면 무슨 일이 벌어질지 더 잘 예측하게 됩니다. 그러나 몇 번의 시행 뒤, 예측 능력이 더 이상 향상되지 않을 때 우리는 이 충동이 사라지는 것을 느낍니다.

이는 우리가 예전에는 예측할 수 없던 사실을 잘 예측할 수 있게 될 경우 이를 학습하려는 동기를 가지지만, 이미 이를 잘 예측할 수 있었거나 혹은 아예 이를 예측할 수 없을 때는 시간을 낭비하지 않는다는 뜻입니다. (2007년 오우디어(Oudeyer)와 카플란(Kaplan), 그리고 2013년 산투치(Santucci) 등은 예측 능력을 포함해 인공지능에 내재적 동기를 부여할 수 있는 다른 방법에 대한 연구결과를 발표했습니다.)

이 내재적 동기를 어떻게 더 뛰어난 로봇과 인공지능을 만드는 데 사용할 수 있을까요? 인간을 비롯한 모든 동물의 아기와 같이, 모든 지식을 내장하지 못한 로봇은 당연히 학습 능력을 갖춰야 합니다. 이 학습 능력에는 어떤 관찰 결과(예를 들어 ‘눈이 내리면’)를 통해 다른 관찰 결과(‘도로는 미끄러울 것이다’)를 예측할 수 있는지가 포함되어 있습니다. 이러한 관찰 결과의 반복을 통해 로봇의 뇌에 존재하는 “내부 예측 모델(internal prediction model)”을 훈련할 수 있으며, 이를 통해 로봇은 자신을 둘러싼 세상을 더 잘 이해하게 됩니다.

내부 예측 모델이 뛰어날수록 로봇은 더 나은 판단을 내릴 수 있습니다. 바깥에 눈이 내릴 때, 로봇은 실제로 도로에서 미끄러지는 경험 없이도, 더 느린 속도로 운전하게 될 것입니다. 슈미트후버는 시뮬레이션을 통해 이러한 내재적 동기를 가진 인공지능 로봇을 만들었습니다. 이 로봇은 다음 사건을 안정적으로 예측하는 데 도움이 되는 사건들을 관찰하고자 하는 동기를 가졌고, 어떤 사건을 충분히 잘 예측하게 되면 이제 다른 사건으로 넘어가도록 만들어졌습니다. 이 로봇은 이러한 내재적 동기가 없는 로봇보다 가상 세계가 어떻게 작동하는지를 더 빨리, 더 정확하게 학습했으며 그 세계에서 무언가를 결정하는 데 유용한 지식도 학습했습니다.

2부로

(사이언티픽 아메리칸)

원문 보기