정규분포(Normal Distribution)

김진섭

HEADLINE

정규분포의 위대함

by 이항분포

by 오차의 법칙

by 중심극한정리

시행 횟수/표본 개수 \(n\)이 커질수록 표본평균 \(\bar{X}\)\(N(\mu,\frac{\sigma^2}{n})\)을 따른다.

Contents

  1. Intro

  2. 이항분포의 근사

  3. 오차의 법칙: 오차라면 마땅히 가지고 있어야 할 조건

  4. 중심극한정리: 모양이 일그러진 동전 / 주사위 던지기

  5. 중심극한정리: 표준정규분포 / 카이제곱분포

  6. 중심극한정리 고찰

  7. Conclusion

목표

  • 정규분포(Normal distribution)의 위대함과 당위성 이해

  • 연속변수는 대부분 정규분포를 가정

  • 실제로 키, 몸무게, 시험 점수 등 대다수의 측정값은 정규분포

  • Why?

  • 이항분포의 근사, 오차의 법칙, 중심극한정리

이항분포(Binomial Distribution)

  • 이항분포 \(B(n,p)\) : 확률 \(p\)인 사건을 \(n\)번 시행 시 각 사건들 확률분포
  • 평균: \(np\), 분산: \(np(1-p)\)
  • 이항분포가 삶의 대부분(선거, 타율, 객관식시험..)
  • 정규분포가 이항분포의 근사값으로 표현된다면?

이항분포 근사: 동전을 무한히 던지면?

이항분포 VS 정규분포: 동전 던지기

\(B(1000,\frac{1}{2}) \simeq N(1000\times \frac{1}{2}, 1000\times \frac{1}{2} \times \frac{1}{2})\)

이항분포의 근사: 주사위를 무한히 던지면?

이항분포 VS 정규분포: 주사위 던지기

\(B(600,\frac{1}{6}) \simeq N(600\times \frac{1}{6}, 600\times \frac{1}{6} \times \frac{5}{6})\)

이항분포 근사: 일반화

  • 동전과 주사위 예시

    • \(B(1000,\frac{1}{2}) \simeq N(1000\times \frac{1}{2}, 1000\times \frac{1}{2} \times \frac{1}{2})\)
    • \(B(600,\frac{1}{6}) \simeq N(600\times \frac{1}{6}, 600\times \frac{1}{6} \times \frac{5}{6})\)
  • 일반화, \(n\)이 커질수록

    • \(B(n,\frac{1}{2}) \simeq N(n \times \frac{1}{2}, n \times \frac{1}{2} \times \frac{1}{2})\)
    • \(B(n,\frac{1}{6}) \simeq N(n \times \frac{1}{6}, n \times \frac{1}{6} \times \frac{5}{6})\)
  • 종합

    • 시행횟수 \(n\)이 커질수록 \(B(n,p) \simeq N(np, np(1-p))\)
    • 정규분포가 이항분포의 근사로 설명, 이상분포의 지위를 물려받는다.

오차의 법칙: 오차라면 마땅히 이래야

수학자 Gauss는 오차에 대한 고찰만으로 정규분포를 유도.

    1. +오차와 -오차가 나올 가능성 같다: \(f(-\epsilon)=f(\epsilon)\)인 좌우대칭 함수
    1. 작은 오차가 흔하고 큰 오차는 드물다: \(f(\epsilon)\)는 위로 볼록한 모양
    1. \(f(\epsilon)\)는 부드러운 모양(2번 미분가능)이고 확률의 합은 1: \(\int_{-\infty}^{\infty} f(\epsilon) d\epsilon=1\)
  • 4. 오차의 참값일 가능성이 가장 높은(MLE) 값은 측정한 오차들의 평균

-> 측정값이 각각 \(\epsilon_1, \epsilon_2, \cdots, \epsilon_n\)일 때 가능도 \(L=f(\epsilon_1 - \epsilon)f(\epsilon_2 - \epsilon)\dots f(\epsilon_n - \epsilon)\)\(\epsilon=\frac{\epsilon_1+\epsilon_2+\cdots+\epsilon_n}{n}\)에서 최대

정말 간단한 4개 조건만으로 정규분포 PDF를 수학적으로 유도.

  • 정규분포가 대부분일 것이다

중심극한정리: 무조건 정규분포 OK?

  • 평균은 가장 흔히 쓰이는 지표.
  • 표본을 뽑아 표본평균(Sample mean) 구하여 전체 평균으로 간주
  • 믿음의 정도로 표준오차(Standard error, 표본평균들의 표준편차) 이용
  • 수백, 수천 명의 여론조사를 민심의 척도로 간주해도 되나?

예: 일그러진 동전 \(p = 0.4\)

  • 행위 1: 10번 던져 앞면 나올 확률 \(\hat{p}\) 계산
  • 행위 1 을 10000번 수행하여 \(\hat{p}\) 의 분포 확인, 행위 2은 30번, 행위 3은 100번 던지기

  1. \(n\) 커질수록 \(\hat{p}\) 이 정규분포에 가까워짐
  2. \(\hat{p}\)의 평균이 실제 \(p\)값인 0.4에 가까워짐
  3. \(\hat{p}\)의 분산이 \(\frac{0.24}{n}=\frac{p(1-p)}{n}\)에 가까워짐

따라서 \(n\)이 커지면 \(\hat{p}\)\(N(p,\frac{p(1-p)}{n})\) 을 따른다

주사위 던지기

  • 주사위눈 평균(\(\mu\)): \(\frac{1+2+3+4+5+6}{6}=3.5\), 분산(\(\sigma^2\)): \(\frac{(1-3.5)^2+(2-3.5)^2+\cdots+(6-3.5)^2}{6}\approx 2.92\)
  • 행위 1: 10번 던져 평균 \(\bar{x}\) 구하는 작업을 10000번 반복. 행위2, 3은 앞과 동일

  1. \(n\)이 커지면 표본평균 \(\bar{X}\)의 분포 \(\simeq\) 정규분포
  2. \(\bar{X}\)의 평균 \(\simeq\) 실제 평균인 \(\mu=3.5\)
  3. \(\bar{X}\)의 분산 \(\simeq\) \(\frac{2.92}{n}=\frac{\sigma^2}{n}\)

\(n\)이 커지면 \(\bar{X}\)\(N(\mu,\frac{\sigma^2}{n})\)을 따른다.

표준정규분포

  • 표준 정규분포(\(\mu=0\), \(\sigma^2=1\))에서 \(n\)개 뽑아 평균내기
  • 세팅은 이전과 동일

  1. \(n\)이 커질수록 표본평균 \(\bar{X}\) 분포 \(\simeq\) 정규분포
  2. \(\bar{X}\)의 평균 \(\simeq\) 실제평균 0
  3. \(\bar{X}\)의 분산 \(\simeq\) \(\frac{1}{n}\)에 가까워졌다.

연속확률의 경우에도 \(n\)이 커지면 \(\bar{X}\)\(N(\mu,\frac{\sigma^2}{n})\)을 따른다.

카이제곱분포

  • 자유도 1인 카이제곱분포(\(\mu=1\), \(\sigma^2=2\)): 왼쪽으로 치우친 분포에서 뽑아도?
  • 세팅은 동일

  1. \(n\)이 커질수록 \(\bar{X}\)의 분포 \(\simeq\) 정규분포
  2. \(\bar{X}\)의 평균과 분산이 각각 1, \(\frac{2}{n}\)에 가까워짐

\(\bar{X}\)\(n\)이 커질수록 \(N(\mu,\frac{\sigma^2}{n})\)을 따른다.

중심극한정리(Central Limit Theorem, CLT) : 어떤 모집단이든 30개 정도의 \(\bar{X}\)가 확보되면 정규분포를 따른다.

중심극한정리 고찰 - 쪽수가 깡패(?)

\(n\) 이 커질수록

  • 표본평균의 평균이 모집단 평균에 가까워짐
  • 표준오차(표본평균의 분산) \(\frac{\sigma^2}{n}\) 이 0에 가까워짐

즉, 표본평균을 실제평균으로 간주해도 됨

중심극한정리 고찰 - 의심의 정도를 숫자로 표현(p-value)

예: \(p = 0.4\) 인 일그러진 동전 여러번 던지기

  • 여러번 던져서 계산한 \(\hat{p}\)의 분포가 \(N(0.4,0.024)\)에 가까워짐.

  • 10번 던져서 앞면 6번(\(\hat{p}=0.6\)) 나왔다면? 6번 이상 나올 확률: 19.7% \(\div2\) = 9.85% -> 그럴 수 있지

  • 30번 던져서 앞면 18번(\(\hat{p}=0.6\)) 나왔다면? 18번 이상 나올 확률: 2.5% \(\div2\) = 1.25% -> 이상한데

  • 100번 던져서 앞면 60번(\(\hat{p}=0.6\)) 나왔다면? 60번 이상 나올 확률: 0.004% \(\div2\) = 0.002% -> 동전조작!

Conclusion

  • 정규분포의 위대함을 설명하는 3개의 논리, 중심극한정리 고찰

정규분포의 위대함

by 이항분포

by 오차의 법칙

by 중심극한정리

시행 횟수/표본 개수 \(n\)이 커질수록 표본평균 \(\bar{X}\)\(N(\mu,\frac{\sigma^2}{n})\)을 따른다.