딥러닝 AI가 쉽게 속는 이유(1/2)
2019년 11월 1일  |  By:   |  과학  |  No Comment

자율주행 자동차가 정지 신호(stop sign)를 향해 갑니다. 하지만 속도를 늦추는 대신 더 높여서 교차로로 돌진하고 결국 사고를 내고 맙니다. 분석 결과, 정지 신호에 네 개의 작은 사각형이 붙어 있었고, 자동차의 인공지능은 ‘정지(Stop)’를 ‘최고 속도 45(speed limit 45)’ 기호로 읽었음이 밝혀집니다.

위의 사건은 가상의 이야기지만, 저런 방식으로 인공지능을 속이는 것은 충분히 가능한 일입니다. 스티커를 몇 군데 붙여서 정지 신호를 잘못 읽게 만들 수 있다는 것은 이미 알려진 사실입니다. 안경이나 모자에 특정한 패턴을 넣어서 얼굴 인식 시스템을 속이는 것도 가능합니다. 화이트 노이즈를 이용해 음성인식 프로그램이 가상의 문구를 듣게 하는 것도 가능합니다.

위의 예들은 오늘날의 첨단 인공지능의 심층신경망(DNN)을 이용한 패턴 인식 기술이 얼마나 취약한 것인지를 보여주는 예들입니다. 이 기술은 사진, 음성, 소비자의 취향 데이터 등을 분류하는데 놀라울 정도의 성능을 보여줍니다. 그리고 자동화된 전화응답에서 넷플릭스의 추천 프로그램에까지 일상에서도 널리 쓰이고 있습니다. 하지만 여전히 사람에게는 인식 불가능할 정도로 작은 변화를 입력에 추가하는 것만으로도 최고 수준의 신경망을 무력화시킬 수 있습니다.

UC 버클리에서 박사과정을 밟고 있는 댄 헨드릭스는 이 문제들이 평범한 보통의 기술에서 흔히 나타나는 특이한 실수가 아닌 훨씬 더 심각한 것이라 말합니다. 다른 여러 과학자들처럼 그 역시 DNN 이 근본적으로 불안정하다는 사실을 충격적인 사례들로부터 알게 되었습니다. 곧, 놀라울 정도로 주어진 일을 잘 해내다가도, 익숙하지 않은 영역에 들어섰을 때, 전혀 예측 불가능한 결과를 내어놓는다는 것입니다.

이는 근본적인 문제로 이어집니다. 딥러닝 시스템은 자율주행 자동차와 범죄 예측, 질병 진단 등 점점 더 실험실에서 현실세계로 이동하고 있습니다. 하지만 올해 발표된 한 연구는 의도적으로 몇 개의 점을 사진에 더한 것 만으로 잘못된 암 진단이 나올 수 있음을 보였습니다. 다른 연구는 해커가 이런 약점을 이용해 인터넷의 인공지능 시스템에 자신의 알고리듬을 동작하게 할 수 있음을 보이기도 했습니다.

이런 DNN 의 단점을 찾는 연구들은 왜 이런 문제가 생기는지에 대해서도 많은 정보를 주었습니다. 캘리포니아 마운틴뷰에 위치한 구글의 AI 연구자인 프랑소와 콜레는 이렇게 이야기합니다. “DNN 의 근본적인 약점을 해결할 방법은 없습니다.” 그와 다른 연구자들은 이 단점을 해결하기 위해서는 패턴 찾기에 특화된 이 DNN에 다른 특별한 능력을 더 해야 한다고 말합니다. 예를 들어, AI 가 자신에게 주어진 세상을 탐사하게 한다든지, 자신의 코드를 직접 짜고 메모리를 유지하게 하는 것 등입니다. 몇몇 전문가들은 이런 종류의 시스템이 다음 10년 동안의 주요한 AI 연구가 될 것이라 생각합니다.

현실 점검

2011년 구글은 유튜브 영상에서 고양이를 인식할 수 있는 시스템을 발표했고, 곧이어 DNN 기반의 다양한 분류 시스템이 등장하기 시작했습니다. 캘리포니아 샌프란시스코의 우버 AI 랩의 선임연구원이자 와이오밍 대학에 있는 제프 클룬은 이렇게 말합니다. “당시에는 누구나 이렇게 이야기했지요. ‘정말 놀랍군요. 마침내 컴퓨터가 세상을 이해하게 되었어요.’”

하지만 AI 연구자들은 DNN 이 실제로 세상을 이해하는 것은 아니라는 사실을 알고 있습니다. DNN 은 뇌의 구조를 대략적으로 본딴, 수많은 디지털 신경을 여러 층으로 쌓은 소프트웨어 입니다. 각각의 신경은 바로 위층과 아래층의 신경과 연결되어 있습니다.

DNN 의 핵심은 가장 아래 층에 들어오는 입력(예를 들어 이미지를 구성하는 픽셀)의 특징이 몇몇 신경을 활성화 시키며 간단한 수학적 규칙을 통해 그 신호가 위층으로 전달되는 것입니다. 많은 데이터를 이용해 이 신경망을 학습시키며, 이는 매 입력 데이터에 대해 최상위 층이 정답을 내놓도록 만드는 것입니다. 이를 통해, 그 신경망이 처음 본 사자 사진에 대해서도 그 사진의 동물이 사자라는 답을 내놓게 할 수 있습니다.

첫번째 현실 점검은 2013년 구글의 연구자인 크리스찬 세지디와 그의 동료들이 발표한 ‘신경망의 흥미로운 특징들’이라는 논문이었습니다. 이들은 DNN 이 인식할 수 있는 특정한 사진 – 예를 들어 사자 사진 – 에 대해 몇 개의 픽셀을 바꿈으로써 전혀 다른 대상, 예를 들어 도서관으로 인식하게 할 수 있음을 보였습니다. 이들은 이런 조작된 사진을 ‘적대적 예제’라 불렀습니다.

1년 뒤, 클룬과 그의 박사과정 학생이었던 안 능우엔은 뉴욕 주 이타카에 위치한 코넬 대학의 제이슨 요신스키와 함께, DNN이 실제로 존재하지 않는 대상을, 예를 들어 파도 모양의 곡선 패턴에서 펭귄을 보도록 할 수 있다는 것을 보였습니다. “기계학습을 해본 사람은 누구나 이 시스템이 한 번씩 바보 같은 결정을 내린다는 사실을 알고 있습니다.” 딥러닝의 선구자 중 한 명인 캐나다 몬트리올 대학의 요슈아 벤지오의 말입니다. “놀라운 것은 그 실수의 성격입니다. 상당히 충격적이지요. 우리가 전혀 생각하지 못했던 그런 종류의 실수가 나타납니다.”

이 새로운 종류의 실수는 곧 다양한 방식으로 나타났습니다. 지난 해, 지금은 앨라배마 오번 대학에 있는 능우엔은 사진의 대상을 조금 회전시키는 것 만으로도 현존하는 가장 뛰어난 이미지 분류 알고리듬을 무력화시킬수 있다는 것을 보였습니다. 올해, 헨드릭스와 그의 동료들은 전혀 조작을 가하지 않은 이미지에 대해서도 최신 알고리듬이, 예를 들어 버섯을 프레첼로, 잠자리를 맨홀 뚜껑으로 분류할 수 있다는 것을 보였습니다.

문제는 이미지 인식에서만 있지 않습니다. DNN을 사용해 입력을 분류하는 모든 AI – 예를 들어 음성 – 에는 이런 문제가 있습니다. 게임을 플레이하는 AI 도 같은 방식으로 방해받을 수 있습니다. 2017년, UC 버클리의 박사과정인 샌디 황과 그녀의 동료들은 강화학습이라는 기술을 이용해 DNN이 아타리 비디오 게임을 깨도록 만들었습니다. 강화학습은 AI 에게 목적을 주고, 주어진 입력의 범위에 대해 시행착오를 통해 목적에 도달하게 만드는 기술입니다. 이 기술은 바둑에서 인간을 이긴 알파제로와 포커의 플루리버스에 쓰였습니다. 하지만 황의 팀은 또한, 화면에 한 두 개의 임의의 픽셀을 추가할 경우 AI 가 게임을 지게 할 수 있다는 것도 보였습니다.

올해 초, UC 버클리의 박사과정 학생인 아담 글리브와 그의 동료들은 AI의 환경에 AI의 반응을 혼란스럽게 만들수 있는 ‘적대적 전략’을 가진 대상을 도입할 수 있음을 보였습니다. 예를 들어, AI 축구선수는 AI 골키퍼를 피해 골을 넣게 학습할 수 있습니다. 하지만 이 AI 축구선수는 골키퍼가 바닥에 눕는 것과 같은 예상치 못한 행동을 했을 때 오히려 골을 넣지 못했습니다.

DNN 의 약점이 알려질 경우 심지어 해커들이 이 강력한 AI를 이용하게 될 수도 있습니다. 지난 해 발표된 구글의 한 팀의 연구는 적대적 예제를 이용해 단순히 DNN이 잘못 예측하는 것을 넘어, 아예 AI가 다른 작업을 하게 끔 프로그램을 다시 쓰게 만들 수도 있음을 보였습니다.

언어를 학습하는 등의 여러 종류의 신경망이 이론적으로는 다른 컴퓨터 프로그램으로 이용될 수 있습니다. “이론적으로는 챗봇을 이용해 당신이 원하는 어떤 프로그램도 만들 수 있습니다. 이게 정말 머리아픈 일이지요.” 클룬의 말입니다. 그는 가까운 미래에 해커들이 클라우드의 신경망을 해킹해 자신의 스팸봇 회피 알고리듬을 돌리게 될 수 있다고 말합니다.

UC 버클리의 던 송은 DNN 을 해커들의 봉이라 말합니다. “이 시스템을 공격할 수 있는 수많은 방법들이 있습니다. 반면 이를 방어하기는 너무너무 어렵습니다.”

(네이처, Douglas Heaven)

2부로

원문 보기