내재적 동기의 또 다른 유용성은 1950년대 심리학자 로버트 W. 화이트(Robert W. White)가 설명했습니다. 그는 주변 환경에 영향을 미치는 행동을 배움으로써 개체의 역량이 늘어난다고 주장했습니다. 예를 들어, 아기는 자신의 인형을 흔들다가 우연히 좌석 옆의 버튼을 눌러 차가 잠기거나 열리는 소리를 들을 수 있습니다.
이런 예상치 못한 소리는 아기가 자신의 행동을 반복하게 하며, 결국 그 소리는 버튼을 눌렀을 때 난다는 것을 배우게 됩니다. 또한, 버튼을 누르는 행동을 반복함으로써 버튼을 누르는 동작을 더 능숙하게 할 수 있게 됩니다. 이제 아기는 비록 이 소리가 어떤 의미인지는 모르지만, 버튼을 눌러 찰칵 소리를 나게 만드는 기술을 익혔습니다. 곧 아기는 자신이 속한 환경 속에서 자신의 역량을 키운 것입니다.
화이트의 방식은 2000년대 초 컴퓨터 과학자 앤드류 바토(Andrew Barto)와 그의 동료들이 인공지능으로 하여금 가상환경에서 기술을 배우게 하는 데 사용되었습니다. 이들은 자동차 안의 찰칵 소리와 같이 특정 사건의 결과가 매우 눈에 띄는 가상 환경을 만들고, 내재적 동기를 가진 인공지능이 임의의 행동 중 우연히 그 특정 사건을 일으킬 경우, 그 사건을 반복하고 행동을 세밀하게 조정해 가장 효율적으로 그 사건을 발생시킬 수 있도록 만들었으며, 그 행동 자체를 이후에 사용할 수 있도록 하나의 기술로 기억하도록 만들었습니다.
또한, 특정 사건을 예측할 수 있게 되면 이를 반복하려는 동기가 사라지며, 다른 눈에 띄는 사건을 찾아 앞서 과정을 반복하도록 만들었습니다. 한편 바토와 그의 동료들은 이렇게 내재적 동기를 통해 기술을 먼저 습득한 인공지능이 그렇지 않은 인공지능에 비해 그 환경에서 새로운 작업을 더 빨리 학습할 수 있다는 것을 보였습니다. 이는 아이가 우연히 자동차 버튼을 누르면 찰칵 소리가 난다는 것을 배운 후, 후에 아빠가 아이와 열쇠를 차 안에 내버려 두고 실수로 차 문을 잠갔을 때 아이가 쉽게 차 문을 열 수 있게 되는 것과 비슷합니다.
실제 세상에서 동작하는 로봇에 내재적 동기를 주는 법도 연구되었습니다. 이미 프로그램된 행동을 가진 로봇 역시 새로운 입력에 대해 적절한 행동을 학습할 필요가 있습니다. 버튼을 보았을 때 이를 누른다든지 손에 무언가 느껴졌을 때 손가락을 구부려 이를 쥐는 등의 행동이 그 예입니다.
이런 조건은 70년대 말 심리학자 제임스 깁슨이 이야기한 “어포던스(affordance)”와도 비슷합니다. 약 10년 전, 로봇공학자 스티븐 하트(Stephen Hart)와 로데릭 그루펜(Roderic Grupen)은 대략적인 감각 입력에 대해 특정 행동을 달성하며, 완전히 새로운 환경에 놓였을 때도 이런 종류의 조건에 대해 같은 목표를 달성할 수 있는, 행동 양식이 미리 정해진 로봇을 만들었습니다. 또한 임의의 행동이 성공적으로 실행될 때 보상에 해당하는 신호를 줌으로써, 그리고 그 신호의 크기를 그 행동의 결과와 예측으로 인한 결과의 차이에 비례하도록 만들어 내재적 동기를 만들었습니다.
이렇게 차이에 비례하는 신호는 로봇이 유사한 감각 입력에 대해 그 행동을 반복하도록 하는 내재적 동기가 됩니다. 반복된 행동을 통해 로봇은 각각의 행동에 대해 더 정교한 어포던스를 배우게 됩니다. 정교한 어포던스는 환경과의 효율적 상호작용을 의미하며, 이는 무언가가 손에 느껴지지 않으면 손가락을 굽히지 않으며 버튼이 보이지 않을 때는 버튼을 누르려 하지 않게 되는 것을 의미합니다.
로봇공학자 아드리엔 바라네스(Adrien Baranes)와 피에르-이브스 오우디어(Pierre-Yves Oudeyer)는 테이블 위 2차원 위를 움직이는 다관절 로봇 팔의 조종에 내재적 동기를 이용했습니다. 갓난아기가 자신의 팔을 허우적거리며 몸을 굴리는 것처럼, 이 로봇 역시 주위를 움직이며 자신의 동작을 학습했습니다. 이들은 로봇 팔이 목표 위치를 설정하고, 이 목표 위치로의 이동을 시도하며, 동작 메커니즘을 조절해 점점 더 정확하게 목표 위치에 도달하게 됨을 보였습니다.
로봇은 목표 위치에 도달하는 능력이 앞서 시도보다 상승할 때 그에 비례하는 내재적 동기 신호를 받았습니다. 즉, 로봇은 그 목표가 너무 어렵거나 혹은 이미 그 목표에 아무런 문제 없이 도달할 수 있을 때 비해, 학습으로 자신의 동작을 향상할 수 있을 때 더 많은 시도를 했습니다. 로봇은 어떤 순간에도 너무 어렵거나 너무 쉬워 이를 배우는 것이 시간 낭비인 동작을 하지 않으면서도 점점 더 어려운 동작을 배우는 데 집중하며 효율적으로 동작을 학습한 것입니다.
위의 네 가지 예에서, 내재적 동기는 인공지능으로 하여금 특정한 작업을 완수하기 위해서가 아닌 다른 이유로 행동을 반복하게 했습니다. 그리고 이 경험을 통해 유용한 행동을 배웠습니다. 바로 정확한 예측이 가능하도록, 환경에 영향을 주는 동작을 익히도록, 가능한 행동을 알려주는 어포던스를 배우도록, 그리고 자신의 몸을 효율적으로 학습하는 그것입니다.
특정 동작에 능숙해지면 이제 내재적 동기는 사라지고 인공지능은 다음 단계로 나아갑니다. 하지만 이미 학습한 기술은 인공지능으로 하여금 환경과 더 효율적으로 상호작용하게 만들고, 앞으로 주어질 과제 역시 더 효율적으로 수행하게 만듭니다. 욕조에서 컵을 이용해 물놀이를 하는 소년은 후에 시리얼이 담긴 사발에 우유를 따르는 기술을 지금 익히는 것입니다. 거실에서 블록 쌓기를 하는 소녀는 후에 창고에 상자를 쌓을 때 사용할 지식을 지금 배우고 있는 것입니다.
이 연구들은 우리가 “무의미한” 동작이라 부르는 것에 어떻게 내재적 동기가 작동하며 이 동기가 어떻게 세상을 배우고 세상과 더 잘 상호작용할 수 있도록 만드는지 보여줍니다. 중요한 것은 이 학습이 선생님에 의한, 의사소통의 한계를 가진 언어로 설명되는 학습이 아니라 자기 주도적이며 실제 경험에 의해 이루어진다는 것입니다. (공을 어떻게 던져야 하는지를 배우는 것과 실제로 공을 던져 보는 것의 차이와 같습니다.)
이 글은 인공 지능이 사건을 예측하고 행동을 실행하는 부분에 상대적으로 초점을 두었습니다. 하지만 발달심리학의 연구들은 이와 유사한 내재적 동기 과정이 실제 경험에 바탕한 자기 주도적 학습을 통해 인지적 사회적 발달에도 중요한 역할을 함을 보여줍니다. 이 과정에 대한 보다 정확한 이해는 인공지능을 만드는 데도 유용할 뿐 아니라 다양한 수준에서 이루어지는 인간의 발달에 대한 이해 역시 더욱 깊게 만들어줄 것입니다.
(사이언티픽 아메리칸)
뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을 쓰고…
* 비상 계엄령 선포와 내란에 이은 탄핵 정국으로 인해 한동안 쉬었던 스브스프리미엄에 쓴 해설 시차발행을…
우리나라 뉴스가 반헌법적인 계엄령을 선포해 내란죄 피의자가 된 윤석열 대통령을 탄핵하는 뉴스로 도배되는 사이 미국에서…
윤석열 대통령에 대한 탄핵 소추안 투표가 오늘 진행됩니다. 첫 번째 투표는 국민의힘 의원들이 집단으로 투표에…
윤석열 대통령의 계엄령 선포와 해제 이후 미국 언론도 한국에서 일어나는 정치적 사태에 큰 관심을 보이고…
트럼프 2기 행정부가 출범하면 미국과 중국의 관계가 어떻게 될지에 전 세계가 촉각을 곤두세우고 있습니다. 안보…
View Comments
가사 욕구와 가사 호기심으로 움직이고, 학습하여 인간과 유사해지고 있는 AI의 발전이 무섭네요;