왜 단순한 설명이 더 나은 설명인가(2/2)
세 번째 검약의 패러다임은 검약이 바로 그 모델이 새로운 관측결과를 얼마나 정확하게 예측할 수 있는지와 관계된다는 것입니다. 이는 통계 이론 중 아카이케 히로토구의 ‘모델 선택이론(Model Selection Theory)’에서 나오는 개념입니다. 그는 검약과 예측정확도와의 관계를 보여주는 놀라운 정리를 증명했습니다. 그 정리는 AIC(아카이케 정보 기준, Akaike Information Criterion)이라 불리며 모델 판단기준의 기초가 됩니다. AIC는 한 모델이 새로운 데이터를 예측할 수 있는 능력은 이 모델이 기존의 데이터를 얼마나 잘 설명하는지, 그리고 그 모델이 얼마나 간단한지의 두 요소에 의해 결정된다는 것을 말해줍니다.
예를 들어, 당신이 어느 시골길을 가고 있다고 해봅시다. 길 양쪽에는 거대한 옥수수밭이 있습니다. 당신은 차를 멈추고, 오른쪽 밭과 왼쪽 밭에서 각각 옥수수 100개를 골라 키를 측정했습니다. 그 결과 오른쪽 밭 옥수수의 평균키는 52인치였고 왼쪽 밭 옥수수의 평균키는 56인치였습니다. 이제 옥수수는 거의 다 자랐고, 따라서 당신은 내일도 옥수수의 키는 오늘과 비슷할 것이라 가정합니다. 당신은 내일 다시 이 길의 양쪽 밭에서 옥수수 100개의 키를 재려 한다면, 다음 두 예측 중 어느 것이 더 정확한 예측일까요?
예측 A: 오른쪽 밭에 있는 옥수수 100개의 평균 키는 52인치, 왼쪽 밭에 있는 옥수수 100개의 평균 키는 56인치일 것이다.
예측 B: 두 밭에 있는 옥수수의 평균 키는 모두 54인치일 것이다.
모델 선택이론은 위의 문제, 곧 어느 예측이 더 정확한지를 알기 위해서는 두 집단의 평균 키에 관한 다음 두 모델을 고려해야 한다고 말합니다.
DIFF: 첫 번째 집단의 평균키는 h1이며 두 번째 집단의 평균키는 h2이다.
NULL: 첫 번째 집단의 평균 키와 두 번째 집단의 평균 키는 h로 동일하다.
위에서 h1, h2, h는 정해지지 않은 값입니다. 즉, 이 변수들은 ‘가변 변수(adjustable parameters)’라 불립니다. NULL 모델은 두 집단의 평균키가 다르지 않다는(=null) 가정 때문에 이와 같은 이름을 가집니다. DIFF 모델은 내가 지은 이름이지만 자칫 두 집단의 평균 키가 다르다는 식의 오해를 만들 수 있습니다. 그러나 DIFF 모델은 두 집단의 키가 다를 가능성과 같을 가능성을 모두 내포하는 모델입니다.
DIFF 모델과 NULL 모델을 통해 이튿날 측정할 옥수수 키 데이터를 어떻게 예측할 수 있을까요? 우리는 과거의 데이터를 이용해 이 두 모델의 변수값을 구할 수 있습니다. 즉, 앞서 측정한 옥수수 밭 데이터는 DIFF 모델과 NULL 모델의 변수를 다음과 같이 만듭니다.
F(DIFF): h1=52인치, h2=56인치
F(NULL): h=54인치
어느 모델이 새로운 데이터를 더 잘 예측하느냐는 질문은 곧 이미 가지고 있는 과거 데이터를 통해 그 모델의 변수를 조절했을 때, 새로 측정될 데이터를 누가 더 잘 예측하느냐는 뜻입니다.
DIFF 모델의 결과가 맞고 NULL 모델의 결과는 틀릴 것이라고 당신은 생각할지 모릅니다. 두 거대한 집단의 평균 키가 똑같을 확률이 얼마나 될까요? 만약 어느 모델이 참이고 어느 모델이 거짓인지를 정하는 것이 목적이라면 이것으로 충분할 수 있습니다. 그러나 지금 우리가 원하는 것은 그것이 아닙니다. 우리는 두 모델의 예측 정확성을 알려 합니다. NULL이나 DIFF 같은 모델을 다룰 때 알게 되는 놀라운 사실 한 가지는, 때로 틀린 결과를 주는 모델이 맞는 결과를 주는 모델보다 더 정확한 예측을 할 수 있다는 것입니다. NULL은 비록 거짓이지만 진실에 가까울 수 있습니다. 만약 그렇다면, 우리는 새 데이터를 예측하기 위해 DIFF가 아닌 NULL을 사용해야 할 것입니다. 어쩌면 과거의 데이터는 실제 상황을 충분히 대변하고 있지 못할 수 있습니다. NULL 모델은 여전히 중요한 것에 주목하게 만드는 반면, DIFF 모델은 잘못된 길로 우리를 헤매도록 만들 수 있습니다.
아카이케 정보 기준(AIC)은 NULL 모델과 DIFF 모델을 다음 두 가지 사실을 통해 평가합니다. 그것은 f(DIFF)가 과거의 데이터를 f(NULL)보다 더 잘 설명한다는 사실과 DIFF가 NULL보다 더 복잡하다는 사실입니다. 여기서 모델의 복잡성은 그 모델이 가지고 있는 가변변수의 수로 정해집니다. AIC는 다음과 같이 대략적으로 설명가능한 아카이케의 정리에 기반하고 있습니다.
모델 M의 예측정확도에 대한 편향되지 않은 추정값 = [f(M)이 얼마나 과거의 데이터를 잘 표현하는지] 빼기 [M이 가지고 있는 가변변수의 수]
위의 식은 검약이 예측 정확도의 추정값에 영향을 미친다는 것을 알려줍니다.
아카이케의 정리는 수학적 정리(theorem)이며 곧 이는 이 정리가 가정들로부터 유도된다는 것을 말합니다. 아카이케는 세 가지를 가정합니다. 첫 번째 가정은 과거의 데이터와 새 데이터가 같은 특성을 가지고 만들어진다는 것입니다. 우리의 옥수수 밭 문제에서 이 가정은 성립합니다. 두 번째 가정은 모델의 각 변수에 대한 예측치를 반복해서 구할 경우 그 예측치는 종모양의 분포를 가진다는 것입니다. 세 번째 가정은 두 모델 중 하나는 진실이거나 진실에 가깝다는 것입니다. NULL와 DIFF 둘 중 하나는 반드시 참이어야 하므로 이 조건 역시 만족됩니다.
가우디와 미스는 예술에서 단순성과 복잡성의 가치를 측정하는 문제는 취향의 문제로 다툴 이유가 없다는 것을 알려줍니다. 아인슈티안과 뉴튼은 과학은 다르며 단순성은 취향의 문제가 아님을 말했습니다. 라이첸바흐와 아카이케는 왜 그말이 맞는 말인지를 보였습니다. 결국 단순한 이론이 이 우주를 묘사하는 이론일 수 있는 세 가지 검약의 패러다임은 아래와 같이 정리할 수 있습니다.
패러다임 1: 때로 단순한 이론은 더 높은 확률을 가진다.
패러다임 2: 때로 단순한 이론은 관찰 결과를 더 잘 설명한다.
패러다임 3: 때로 모델의 단순성은 그 모델의 예측 정확도 추정치와 관련이 있다.
이 세 가지 패러다임에는 중요한 공통점이 있습니다. 특정한 문제가 위의 세 패러다임에 속할지가 바로 그 문제에 대한 실험적 가정에 의해 결정된다는 것입니다. 어떤 문제들의 경우 그 가정이 참이며, 어떤 문제에는 그 가정이 거짓입니다. 비록 검약은 이 우주가 움직이는 방식과 명백하게 관련이 있긴 하지만, 또한 오캄의 면도날을 무조건적으로, 그리고 어떠한 가정도 없이 정당화할 수는 없다는 것을 알아야 합니다.
(AEON)