03 빈도통계학과 베이즈통계학: 철학의 차이

03 빈도통계학과 베이즈통계학: 철학의 차이

이제부터는 inference와 prediction 문제를 해결하는 통계학의 두 가지 접근법을 차례로 살펴보겠습니다. 첫 번째는 빈도통계학 접근법으로, 학부 통계학에서 가장 많이 접해본 내용입니다. 사실 그냥 통입 통방 수통1 수통2가 전부다 빈도통계학을 위한 준비 + 논리 이해하기입니다. 그래서 베이즈통계 안 듣고 졸업하면 통계학을 반쪽만 알고 가는거에요. 두 번째는 베이지안 접근법인데, 두 방법의 큰 차이점은 모수에 대한 해석의 차이라고 생각해요. 빈도통계학 접근법에서 추론이란 알지는 못하지만 단 하나의 상수로 존재하는 참 모수 $\theta$ 찾기에요. 우리는 한 번 확률 실험으로 얻은 데이터를 가지고 모수를 찾아야하는 참 안습한 상황에 처해있지요. 하지만 만일 이 확률 실험을 무수히 반복하면 얻어지는 모든 가능한 결과들의 분포가 있을 것이고, 그 분포를 결정하는 모수는 오직 한나의 참 모수값 $\theta$라는 거에요. 쉽게 말하면 “앞면이 나올 확률을 알려면 무수히 많이 던져보면 된다"입니다. 때문에 빈도 통계학 접근법은 Fixed Parameter, Random Data라고 요약할 수 있겠습니다.

아니 뭐 당연한 거 아니냐 싶을 수도 있겠는데, 잘 생각해보면 좀 이상한 부분이 있어요. 확률실험이 무수히 반복할 수 있으면 그래 뭐 그 말대로 수많은 데이터들을 관측이야 할 수 있다면 인정하겠는데, 실제로 갖고 있는 데이터는 오직 하나밖에 없습니다. 많아야 100번 정도 던지고 앞면이 나온 횟수만 알 수 있어요. 그런데 모수를 모르는 데이터의 분포를 바탕으로 하나의 참 모수를 찾아내겠다고? 순환 논리죠 이건. 이를 빈도통계학에서는 극한분포로 우회해서 해결합니다. 표본크기 n짜리인 하나의 데이터 $D$에서 계산한 모수에 대한 추정량을 $\hat{\theta}{(D)}$라고 하면, 이 추정량의 분포를 sampling distribtion이라고 합니다. 이때 데이터의 크기가 무한으로 늘어날 때 $(n \to \infty)$ 추정량 $\hat{\theta}{(D)}$의 극한분포를 알 수 있습니다. 중심극한정리를 생각해보면, 모분포 $f(x\mid\theta)$가 제대로 생겨먹으면 (평균과 분산이 유한하면) 분포가 뭐든 간에 표본 평균의 분포가 (정확히 말하면 모평균과 표본평균의 표본수로 스케일된 편차가) 정규분포를 따르죠. 즉 참 모수의 값 $\theta$는 몰라도, (표본 크기가 크면) 모수의 추정량 $\hat{\theta}(D)$의 분포는 알 수 있는 거에요. 신기하지 않나요? 이 원리를 모든 Likelihood 모델에 확장시켜 적용한 것이 MLE의 극한분포입니다.

그런데 생각을 달리 해볼 수 있어요. 모수 $\theta$가 내가 모르는 값인데, 예컨대 $\theta_1$일 수도 있을 것 같고 $\theta_2$일 수도 있을 것 같아요. 그러면 그냥 “$\theta$는 반반의 확률로 $\theta_1$이거나 $\theta_2$일거임” 이라고 말을 할 수 없을까요? 즉 모수는 모르는 값이니까 모수에 대한 나의 불확실한 믿음을 확률 분포로 표현하는 것이죠. 이렇게 모수에 대한 Belief를 확률분포 $p(\theta)$로 주고, 우리가 얻은 단 하나의 데이터 $D$를 바탕으로 이 믿음을 $p(\theta \mid D)$로 업데이트하며 $\theta$에 대해 추론하는 방법이 베이즈 접근법입니다. 아니 모수는 모르지만 단 하나의 값으로 있는데 니 맘대로 그렇게 해도 돼? 응 그렇게 할 수 있고 그렇게 할 거야! 라고 당당히 말하고 있어요. 한마디로 말하면 Fixed Data, Random Parameter라는 것이죠. 이때 믿음을 업데이트하는 방법이 베이즈 정리인데, 나중에 차차 살펴볼게요.

이렇게 베이즈 접근법을 사용하면 빈도 통계학처럼 굳이 “관측은 못 하지만 기필코 어딘가 존재하는 무수히 많은 표본들"같은 공상과학적 망상이 필요가 없어요. 추론의 결과도 빈도통계학에 비해 이해하기가 훨씬 직관적입니다. 그냥 모수에 대한 확률 분포를 딱 주니까요. 다만 베이즈 통계학이 처음에 외면을 받았던 이유 중 하나이자 지금도 이를 유사과학으로 생각하는 분들이 많은 이유는 바로 $p(\theta)$, 즉 데이터를 관측하기 전 모수에 대해 가지고 있는 믿음 때문입니다. 좋게 말하면 데이터 형성 과정에 대한 관찰자의 사전 지식을 반영할 수 있는거긴 한데, 또 어찌보면 관측하는 사람에 따라서 믿음이 다 다를거고 추론 결과도 다를거에요. 베이즈 통계학의 근본적인 한계라고 볼 수도 있고, 무한한 확장성의 발판이라고도 할 수 있는 양날의 검 같습니다. 나중에 또 자세히 살펴볼게요.

References

  1. Probability Theory and Statistical Inference: Econometric Modeling with Observational Data (Spanos, 1999)
  2. Machine Learning: a Probabilistic Perspective (Murphy, 2012)
  3. Computer Age Statistical Inference (Efron, Hastie, 2016)
  4. Calibration of p Values for Testing Precise Null Hypotheses (Sellke et al, 2001)
  5. https://ocw.mit.edu/courses/mathematics/18-05-introduction-to-probability-and-statistics-spring-2014/readings/MIT18_05S14_Reading20.pdf