시간의 흐름과 강화 학습의 관계

2020년 11월 20일 | By: veritaholic | 과학 | No Comment

(Jordana Cepelewicz, Quanta)

시간의 흐름을 인식하는 것은 우리 인간의 경험과 행동의 기반이 되는 매우 중요한 감각이지만, 동시에 주관적이고 불규칙한 감각이기도 합니다. 그 순간의 감정, 배경 음악, 주변에서 일어나는 사건 등 우리의 주의를 끄는 모든 것이 이 감각에 영향을 미칩니다. 사람들에게 다양한 이미지를 시간을 바꿔가며 보여주는 실험이 있습니다. 사람들은 화난 얼굴이 그렇지 않은 얼굴보다 더 오래 지속되었다고 생각했습니다. 거미사진이 나비 사진보다 더 오래 보였다고 느꼈으며, 붉은 색이 푸른 색보다 더 오래 보였다고 생각했습니다. 주전자를 바라보고 있으면 물은 끓지 않습니다. 하지만 즐거운 일에는 시간이 쏜살같이 지나갑니다.

지난 8월, 이스라엘 와이즈만 연구소의 세 과학자는 이 문제에 대한 답을 줄 수 있는 하나의 연구를 네이처에 발표했습니다. 그들은 우리의 시간 인식과 뇌의 보상 시스템 사이에 어떤 관계가 있을 것이라는 오래된 추측의 한 가지 근거를 보였습니다. 또한, 뇌가 끊임없이 행하는, 미래에 대한 예측이 이 시간의 흐름 인식과 밀접한 관계가 있음을 보였습니다.

“‘즐거운 일에는 시간이 빨리간다’는 사실은 누구나 알고 있지요.” 이 연구에 참여하지 않은 하버드 대학의 인지뇌과학자인 샘 거쉬만은 이렇게 말합니다. “하지만 실제로는 이렇다는 겁니다. 곧, 당신의 예상 보다 더 즐거운 일일때 시간은 빨리간다는 것이죠.”

학습과 시간

시간과 뇌의 관계는 단순하지 않습니다. 우리 뇌의 각 부분이 시간을 경험하는 방법은 서로 다르며, 또 상황에 따라 시간을 경험하는 방법 또한 변합니다.

그러나 지난 수십년 간의 연구는 신경전달물질인 도파민이 우리의 시간 인식에 핵심적인 역할을 한다는 것을 보였습니다. 우리가 시간이 얼마나 흘렀는지를 추측할 때 도파민은 매우 다양한 방식으로 영향을 미치며, 때로 그 방식들은 서로 반대의 효과를 내기도 합니다. 도파민의 양을 늘렸을때 동물의 체내 시계가 빨리 흘렀고, 이들은 그 동안 더 많은 시간이 흘러간 것으로 판단했다는 연구가 있습니다. 다른 연구에서는 도파민이 사건들을 압축해서 경험하게 하였으며 이들은 오히려 시간이 얼마 흐르지 않은 것처럼 느꼈습니다. 곧, 이 두 효과는 맥락에 따라 다르게 나타났습니다.

도파민과 시간 인식의 관계가 특별히 흥미로운 이유는 이 신경전달물질이 보상이라는 방법으로 우리 인간에게 강화 학습을 하도록 만들기 때문입니다. 예를 들어, 우리가 예상치 못한 보상을 받았을때 – 혹은 예측 오차가 발생했을때 – 우리 뇌에는 이 도파민이 분비되며, 이는 우리로 하여금 같은 행동을 반복하게 만듭니다.

이런 인간의 학습에 영향을 주는 도파민이 마침 시간 인식에도 영향을 미친다는 것은 어떻게 보면 우연처럼 보이기도 합니다. 메쓰암페타민과 같은 마약이나 파킨슨 병과 같은 신경질환 또한 도파민 분비에 영향을 주며 학습 능력과 시간 지각 능력에 모두 영향을 미칩니다. 사실 학습이란 다름 아닌 특정한 행동과 그로 인한 결과를 인식함으로써 이루어지는 것이며, 이는 서로 다른 시간의 두 사건을 연관짓는 것이라 할 수 있습니다. “강화 학습의 핵심에는 시간에 대한 정보가 있습니다.” 포르투갈 샹팔리모 재단의 뇌과학자인 조셉 페이튼은 말합니다.

하지만 이번 연구 전까지는 이 강화 학습과 시간 인식이 서로 어떻게 연관되는지가 확실하지 않았습니다. “두 분야는 독립적으로 연구되고 있었습니다.” 조지 메이슨 대학의 심리학자 마틴 위너의 말입니다. “누구도 아직은 이런 질문을 하지 않았죠. ‘강화학습과 시간 인식이 같은 신경전달물질을 이용하는 상황에서, 두 기능은 서로에게 어떤 영향을 미칠까?’”

예측 오차의 힘

이도 토렌, 크리스토퍼 애버그, 로니 파즈의 이번 연구는 이 질문의 답에 보다 가까이 다가갔습니다. 이들은 실험 참여자에게 숫자 0을 연속으로 보여주었습니다. 그리고 두 번째 0이 보여지는 시간을 바꿔가며 참여자들에게 두 번째 0이 첫 0에 비해 더 오래 나타났는지 혹은 짧게 나타났는지를 판단하게 했습니다. 하지만 가끔씩 두 번째 숫자로 양수나 음수를 보여주었습니다. 양수의 경우 참여자는 상금을 받았고, 음수는 다시 상금을 줄였습니다.

이렇게 0이 아닌 숫자가 나타났을때 참여자들은 두 번째 숫자가 보여진 시간을 판단하는데 영향을 받았습니다. 예상하지 못한 좋은 일 – 이들은 “긍정적 예측 오차”라 부른 – 은 참여자들이 그 시간을 더 길게 느끼도록 만들었습니다. 반대로 예상하지 못한 나쁜일, 곧 부정적 예측 오차의 경험을 이들은 더 짧게 느꼈습니다. “이는 우리의 시간 지각이 근본적으로 우리가 그 결과에 어떻게 놀랐는지에 영향을 받는다는 것을 보여줍니다.” 연구에 참여하지 않은 빌라노바 대학의 심리학자 매튜 마텔의 말입니다.

이들은 또한 이런 패턴이 양적으로도 성립한다는 것을 보였습니다. 곧, 더 큰 긍정적 예측 오차는 더 큰 시간 지각의 변화를 만들었습니다. 이들이 만든 강화학습 모델은 각 참여자의 결과를 예측하기에 충분했습니다. 또 참여자의 뇌 스캔 결과는 이 현상에 운동 학습과 관련된 피각(putamen) 부위가 영향을 미친다는 것을 보여주었습니다.

앞으로 많은 실험이 필요하겠지만, 이번 연구는 적어도 학습과 시간 지각 사이의 관계에 대한 하나의 가설을 제시한 셈입니다. 파블로프의 개는 종 소리가 음식을 의미한다는 것을 학습했습니다. 이는 음식이 주는 즐거움 외에도 음식이 곧 주어질 것이라는 사실을 안 것입니다. 지금까지 강화학습에서 시간적인 요소는 그저 부수적인 것으로 취급되었습니다. 보상이 주어지는 시간은 하나의 객관적 변수로 취급되었을 뿐, 이번 연구가 보여준 것과 같은 주관적 시간 흐름의 인식은 고려되지 않았습니다.

신경 피로의 역할

앞으로는 여러 연구에서 이런 시간의 주관적 특성을 고려해야할지 모릅니다. 어떤 신호가 사람이 경험하는 시간을 늘리거나 줄인다면, 이는 어떤 행동과 그에 대한 보상 사이의 시간 간격이 얼마나 걸리는지에 대한 감각 또한 바뀐다는 뜻이며, 따라서 이는 학습의 속도에도 영향을 미칠 것입니다. 또한, 예측 오차와 타이밍의 관계는 “정확한 강화 학습 모델을 위한 새로운 특성”을 제시하는 것이라고 칼텍의 박사후연구원이었던 보웬 펑은 말합니다.

“이번 연구는 학습과 시간 인식의 관계를 고려해서 뇌를 이해하려는 이들에게 상당히 도전적인 과제를 부여한 셈입니다.” 마텔의 말입니다. 거쉬만과 그의 박사과정 학생 존 미카엘은 시간의 흐름을 적응적으로 미래 예측 결과를 향상시키는 학습 모델을 만들어 왔습니다.

하지만 예측 오차가 우리의 시간 인식에 영향을 주는 유일한 요소는 아닙니다. 지난 8월 뉴로사이언스 저널에 실린 한 연구는 짧은 시간 자극을 반복적으로 받은 피험자는 약간 더 긴 간격의 시간을 그보다 더 길게 느낀다는 사실을 보였습니다. 연구자들은 이를 짧은 시간 간격을 감지하는 신경 세포들의 피로에 의해 긴 시간 간격을 감지하는 신경 세포들이 상대적으로 더 자극되었기 때문일 수 있다고 썼습니다. (반대로, 긴 시간 자극을 반복적으로 받은 피험자들은 약간 더 짧은 간격의 시간을 그보다 더 짧게 인식했습니다.)

“자극이 주어지는 맥락을 바꿈으로써, 우리는 피험자들이 그 시간 간격을 어떻게 인식할지를 조절할 수 있었습니다.” 해당 연구를 UC버클리의 리차드 아이버리와 함께 수햄한 일본 NIICT의 인지뇌과학자인 마사미치 하야시의 말입니다. 이들에 대한 뇌 스캔 결과는 우측 두정엽이 주관적 시간 인식을 담당한다는 것을 보였습니다.

하야시와 아이버리가 발견한 뇌 부위는 와이즈만 연구소의 과학자들이 발견한 부위와 전혀 다릅니다. 그러나 이 두 팀의 연구는 특정한 조건에 의해 시간을 더 길게 느끼거나 짧게 느끼게 만들 수 있다는 유사한 결과를 보였습니다. 이는 뇌에서 시간을 측정하는 부위가 여럿일 수 있음을 말해 줍니다. 혹은, 하야시의 말처럼 우측 두정엽이 피각 부위와 해부학적, 기능적으로 연결되어 있기 때문에 이 두 부위의 상호작용에 의해 시간의 지각이 일어나는 것일 수 있습니다. 물론 우리 뇌의 시간에 대한 인식이 완벽하게 밝혀지기 전까지는, 과학자들이라도 시간을 알기 위해 시계를 계속 봐야할 것입니다.