Categories: 과학

왜 단순한 설명이 더 나은 설명인가(2/2)

세 번째 검약의 패러다임은 검약이 바로 그 모델이 새로운 관측결과를 얼마나 정확하게 예측할 수 있는지와 관계된다는 것입니다. 이는 통계 이론 중 아카이케 히로토구의 ‘모델 선택이론(Model Selection Theory)’에서 나오는 개념입니다. 그는 검약과 예측정확도와의 관계를 보여주는 놀라운 정리를 증명했습니다. 그 정리는 AIC(아카이케 정보 기준, Akaike Information Criterion)이라 불리며 모델 판단기준의 기초가 됩니다. AIC는 한 모델이 새로운 데이터를 예측할 수 있는 능력은 이 모델이 기존의 데이터를 얼마나 잘 설명하는지, 그리고 그 모델이 얼마나 간단한지의 두 요소에 의해 결정된다는 것을 말해줍니다.

예를 들어, 당신이 어느 시골길을 가고 있다고 해봅시다. 길 양쪽에는 거대한 옥수수밭이 있습니다. 당신은 차를 멈추고, 오른쪽 밭과 왼쪽 밭에서 각각 옥수수 100개를 골라 키를 측정했습니다. 그 결과 오른쪽 밭 옥수수의 평균키는 52인치였고 왼쪽 밭 옥수수의 평균키는 56인치였습니다. 이제 옥수수는 거의 다 자랐고, 따라서 당신은 내일도 옥수수의 키는 오늘과 비슷할 것이라 가정합니다. 당신은 내일 다시 이 길의 양쪽 밭에서 옥수수 100개의 키를 재려 한다면, 다음 두 예측 중 어느 것이 더 정확한 예측일까요?

예측 A: 오른쪽 밭에 있는 옥수수 100개의 평균 키는 52인치, 왼쪽 밭에 있는 옥수수 100개의 평균 키는 56인치일 것이다.

예측 B: 두 밭에 있는 옥수수의 평균 키는 모두 54인치일 것이다.

모델 선택이론은 위의 문제, 곧 어느 예측이 더 정확한지를 알기 위해서는 두 집단의 평균 키에 관한 다음 두 모델을 고려해야 한다고 말합니다.

DIFF: 첫 번째 집단의 평균키는 h1이며 두 번째 집단의 평균키는 h2이다.

NULL: 첫 번째 집단의 평균 키와 두 번째 집단의 평균 키는 h로 동일하다.

위에서 h1, h2, h는 정해지지 않은 값입니다. 즉, 이 변수들은 ‘가변 변수(adjustable parameters)’라 불립니다. NULL 모델은 두 집단의 평균키가 다르지 않다는(=null) 가정 때문에 이와 같은 이름을 가집니다. DIFF 모델은 내가 지은 이름이지만 자칫 두 집단의 평균 키가 다르다는 식의 오해를 만들 수 있습니다. 그러나 DIFF 모델은 두 집단의 키가 다를 가능성과 같을 가능성을 모두 내포하는 모델입니다.

DIFF 모델과 NULL 모델을 통해 이튿날 측정할 옥수수 키 데이터를 어떻게 예측할 수 있을까요? 우리는 과거의 데이터를 이용해 이 두 모델의 변수값을 구할 수 있습니다. 즉, 앞서 측정한 옥수수 밭 데이터는 DIFF 모델과 NULL 모델의 변수를 다음과 같이 만듭니다.

F(DIFF): h1=52인치, h2=56인치
F(NULL): h=54인치

어느 모델이 새로운 데이터를 더 잘 예측하느냐는 질문은 곧 이미 가지고 있는 과거 데이터를 통해 그 모델의 변수를 조절했을 때, 새로 측정될 데이터를 누가 더 잘 예측하느냐는 뜻입니다.

DIFF 모델의 결과가 맞고 NULL 모델의 결과는 틀릴 것이라고 당신은 생각할지 모릅니다. 두 거대한 집단의 평균 키가 똑같을 확률이 얼마나 될까요? 만약 어느 모델이 참이고 어느 모델이 거짓인지를 정하는 것이 목적이라면 이것으로 충분할 수 있습니다. 그러나 지금 우리가 원하는 것은 그것이 아닙니다. 우리는 두 모델의 예측 정확성을 알려 합니다. NULL이나 DIFF  같은 모델을 다룰 때 알게 되는 놀라운 사실 한 가지는, 때로 틀린 결과를 주는 모델이 맞는 결과를 주는 모델보다 더 정확한 예측을 할 수 있다는 것입니다. NULL은 비록 거짓이지만 진실에 가까울 수 있습니다. 만약 그렇다면, 우리는 새 데이터를 예측하기 위해 DIFF가 아닌 NULL을 사용해야 할 것입니다. 어쩌면 과거의 데이터는 실제 상황을 충분히 대변하고 있지 못할 수 있습니다. NULL 모델은 여전히 중요한 것에 주목하게 만드는 반면, DIFF 모델은 잘못된 길로 우리를 헤매도록 만들 수 있습니다.

아카이케 정보 기준(AIC)은 NULL 모델과 DIFF 모델을 다음 두 가지 사실을 통해 평가합니다. 그것은 f(DIFF)가 과거의 데이터를 f(NULL)보다 더 잘 설명한다는 사실과 DIFF가 NULL보다 더 복잡하다는 사실입니다. 여기서 모델의 복잡성은 그 모델이 가지고 있는 가변변수의 수로 정해집니다. AIC는 다음과 같이 대략적으로 설명가능한 아카이케의 정리에 기반하고 있습니다.

모델 M의 예측정확도에 대한 편향되지 않은 추정값 = [f(M)이 얼마나 과거의 데이터를 잘 표현하는지] 빼기 [M이 가지고 있는 가변변수의 수]

위의 식은 검약이 예측 정확도의 추정값에 영향을 미친다는 것을 알려줍니다.

아카이케의 정리는 수학적 정리(theorem)이며 곧 이는 이 정리가 가정들로부터 유도된다는 것을 말합니다. 아카이케는 세 가지를 가정합니다. 첫 번째 가정은 과거의 데이터와 새 데이터가 같은 특성을 가지고 만들어진다는 것입니다. 우리의 옥수수 밭 문제에서 이 가정은 성립합니다. 두 번째 가정은 모델의 각 변수에 대한 예측치를 반복해서 구할 경우 그 예측치는 종모양의 분포를 가진다는 것입니다. 세 번째 가정은 두 모델 중 하나는 진실이거나 진실에 가깝다는 것입니다. NULL와 DIFF 둘 중 하나는 반드시 참이어야 하므로 이 조건 역시 만족됩니다.

가우디와 미스는 예술에서 단순성과 복잡성의 가치를 측정하는 문제는 취향의 문제로 다툴 이유가 없다는 것을 알려줍니다. 아인슈티안과 뉴튼은 과학은 다르며 단순성은 취향의 문제가 아님을 말했습니다. 라이첸바흐와 아카이케는 왜 그말이 맞는 말인지를 보였습니다. 결국 단순한 이론이 이 우주를 묘사하는 이론일 수 있는 세 가지 검약의 패러다임은 아래와 같이 정리할 수 있습니다.

패러다임 1: 때로 단순한 이론은 더 높은 확률을 가진다.

패러다임 2: 때로 단순한 이론은 관찰 결과를 더 잘 설명한다.

패러다임 3: 때로 모델의 단순성은 그 모델의 예측 정확도 추정치와 관련이 있다.

이 세 가지 패러다임에는 중요한 공통점이 있습니다. 특정한 문제가 위의 세 패러다임에 속할지가 바로 그 문제에 대한 실험적 가정에 의해 결정된다는 것입니다. 어떤 문제들의 경우 그 가정이 참이며, 어떤 문제에는 그 가정이 거짓입니다. 비록 검약은 이 우주가 움직이는 방식과 명백하게 관련이 있긴 하지만, 또한 오캄의 면도날을 무조건적으로, 그리고 어떠한 가정도 없이 정당화할 수는 없다는 것을 알아야 합니다.

1부로

(AEON)

원문 보기

veritaholic

Recent Posts

“궁지 몰리면 무력 충돌 불사할 수도”… 양안 분쟁 발발하면 한국은?

트럼프 대통령이 오늘(20일) 취임했습니다. 4년을 쉬고 두 번째 임기를 시작하는 트럼프 대통령이 국제 질서에 몰고…

23 시간 ago

[뉴페@스프] “설마설마했는데 결국?”… 이 사람이 트럼프의 미래일까

뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을 쓰고…

4 일 ago

“불리한 여론 뒤집으려는 말인 줄 알았는데… 뒤에서 웃는 시진핑·푸틴”

트럼프 대통령 당선인이 후보 시절 언급한 적 없다가 당선된 뒤 꺼내 든 의제 가운데 가장…

5 일 ago

[뉴페@스프] ‘백신 음모론자’가 미국 보건 수장 되다… “인신공격은 답 아냐”

뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을 쓰고…

1 주 ago

“LA 산불 반복되는 과학적 이유 있는데… 그게 아니라는 트럼프·머스크”

미국 캘리포니아 남부 LA 일대에서 난 산불로 큰 피해가 났습니다. 사망자도 20명을 넘었고, 강풍에 불길이…

1 주 ago

[뉴페@스프] ‘예스맨의 절대 충성’ 원하는 트럼프…단 하나의 해답 “귀를 열어라”

뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을 쓰고…

1 주 ago