Search
🎲

확률통계 3-2. 정규 분포와 통계량 분포

Created at
2019/11/15
Updated at
2022/03/03
Tags
Keywords
확률 분포
3 more properties
목차

1. 정규분포(Normal distribution)

1.1 정규 분포

=가우시안 분포(Gaussian distribution)
자연현상에서 나타나는 숫자를 확률 모형으로 모형화할 때 가장 많이 사용
Abraham De moivre (1667~1754)가 최초로 발견 Pierre-Simon Laplace (1749~1827) – 천문학 등에 이용 Carl Friedrich Gauss (1777~1855) – 물리학과 천문학 등에 폭넓게 응용
표기
XN(μ,σ2)X \sim N(\mu, \sigma^2)
Parameter가 2개: E(X)=μ,Var(X)=σ2E(X) = \mu, \quad Var(X) = \sigma^2
확률밀도함수
N(x;μ,σ2)=12πσ2e(xμ)22σ2,xRN(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad x \in R
정규분포의 성질
정규분포의 확률밀도함수 그래프는 종모양으로 평균에 대하여 대칭
정규분포는 평균분산에 의해 완전히 결정 (2개의 파라미터)
평균과 분산이 같은 두 정규분포는 동일한 분포
분산은 같고 평균이 다른 정규분포의 확률밀도함수 비교
평균은 같고 분산이 다른 정규분포의 확률밀도함수 비교
𝑋𝑋가 평균 μ\mu로부터 ±σ,±2σ,±3σ±\sigma, ±2\sigma, ±3\sigma 의 사이에 있을 확률
𝑃(μσ𝑋μ+σ)=68.27𝑃(\mu − \sigma ≦ 𝑋 ≦ \mu +\sigma) = 68.27%
𝑃(μ2σ𝑋μ+2σ)=95.45𝑃(\mu − 2\sigma ≦ 𝑋 ≦ \mu + 2\sigma) = 95.45%
𝑃(μ3σ𝑋μ+3σ)=99.73𝑃(\mu − 3\sigma ≦ 𝑋 ≦ \mu + 3\sigma) = 99.73%
Empirical rule: 68%-95%-99.7%

1.2 Q-Q 플롯

본격적인 정규검정(normality test) 전에 간단히 Q-Q 플롯으로 정규분포를 확인할 수 있음
Q-Q 플롯: 동일 분위수에 해당하는 정상 분포의 값과 주어진 분포의 값을 한 쌍으로 만들어 scatter plot으로 그린 것
그리는 방법
1.
대상 샘플 데이터를 크기로 정렬(sort)한다.
2.
각 샘플 데이터의 분위함수 값(quantile function) 값, 즉 전체 중의 몇 %에 해당하는지 구한다.
3.
각 샘플 데이터의 분위함수 값이 정규 분포의 cdf 값이 되는 표준 정규 분포의 값, 즉 분위수(quantile)을 구한다.
4.
샘플 데이터와 그에 대응하는 정규 분포 값을 한 쌍으로 하나의 점을 그린다.
5.
모든 샘플에 대해 2-4의 과정을 반복하여 scatter plot을 완성한다.

1.3 표준정규분포(standard normal distribution)

표준 정규 분포: 평균이 0, 분산이 1인 분포
표기
XN(μ,σ2)표준화된 확률변수 Z=xμσN(0,1)X \sim N(\mu, \sigma^2) \Rightarrow \text{표준화된 확률변수 } Z=\frac{x-\mu}{\sigma} \sim N(0, 1)
표준화 공식의 의미
표준화된 확률변수 𝑍는 확률변수 𝑋의 값이 기대값(μ\mu)으로부터 몇 단위 표준편차(σ\sigma)만큼 떨어져 있는지를 나타냄
확률밀도함수
p(z)=12πez2/2p(z) = \frac{1}{\sqrt{2\pi}}e^{-z^2/2}
표준정규분포의 상위 (100 × 𝛼)% 백분위수 계산
기호 zα:P(Zzα)=α\text{기호 } z_\alpha: P(Z \geq z_\alpha) = \alpha
예시: z0.005=2.576  ;  z0.01=2.326  ;  z0.025=1.96  ;  z0.05=1.645  ;  z0.10=1.282z_{0.005} = 2.576\; ; \; z_{0.01} = 2.326\; ; \; z_{0.025} = 1.96 \; ; \; z_{0.05} = 1.645 \; ; \; z_{0.10} = 1.282

1.4 중심극한정리 (Central Limit Theorem)

의의
중심극한정리는 왜 정규분포가 중요한 분포인지 설명함
실세계에서 발생하는 많은 현상이 정규분포로 모형화 가능한 이유가 바로 중심극한정리 때문임
모집단의 분포(모양)와 상관없이 표본의 크기가 충분히 크다면 표본평균들의 분포모집단의 모수를 기반으로한 정규분포를 이룬다는 점을 이용하여 특정 사건이 일어날 확률값을 계산할 수 있음
표본 평균들이 이루는 표본 분포와 모집단 간의 관계를 증명함으로써, 수집한 표본의 통계량(statistics)을 이용해서 모집단의 모수(parameter)를 추정할 수 있는 수학적 근거 추측통계학의 근거
중심극한정리라는 용어는 1920년 헝가리 수학자 포여 죄르지(George Pólya)가 만들었고, 중심(central)이라는 말은 확률이론의 중심이라고 할 정도로 중요하다는 의미로 붙임
의미
모집단의 분포에 상관없이 표본의 크기가 커질수록 표본 평균의 분포는 정규분포에 가까워진다
여러 확률 변수(독립적일 때)의 합이 정규 분포와 비슷한 분포를 이루는 현상
원리
설명
중심극한정리: N개의 임의의 i.i.d. 분포로부터 얻은 표본의 평균은 N이 증가할수록 정규분포로 수렴한다.\text{중심극한정리: $N$개의 임의의 i.i.d. 분포로부터 얻은 표본의 평균은} \\ \text{ $N$이 증가할수록 정규분포로 수렴한다.}
아래의 확률변수가 평균 μ\mu, 분산 σ2\sigma^2 인 임의의 모집단에서의 랜덤표본일 때,
랜덤표본(random sample): 서로 독립이며 동일한 분포를 갖는 아래 확률변수들의 집합을 크기 nn의 랜덤표본이라고 함. 분포의 모양은 상관없음(서로 달라도 됨)
i.i.d.: independently identically distributed, 서로 독립적이고 동일한 분포에서 관측된
확률변수 X1,X2,,Xn\text{확률변수 $X_1, X_2, \dots, X_n$}
표본크기 nn이 커질수록, 표본평균의 분포는 모집단의 분포에 상관없이 근사적으로 N(μ,σ2/n)N(\mu, \sigma^2/n)을 따른다
Xˉn\bar X_n도 예측할 수 없는 확률변수
XˉndN(x;  μ,σ2n)\bar X_n \xrightarrow{d} N\left(x;\;\mu,\dfrac{\sigma^2}{n}\right)
표준화된 표본평균의 분포는 근사적으로 표준정규분포를 따른다
Z=Xˉnμσ/ndN(x;  0,1)Z = \frac{\bar X_n - \mu}{\sigma/\sqrt n} \xrightarrow{d} N(x; \; 0, 1)
모집단이 정규분포 M(μ,σ2)M(\mu, \sigma^2)을 따를 때, 랜덤 표본(X1 to XNX_1 \text{ to } X_N)의 표본평균은 정규분포 N(μ,σ2/n)N(\mu, \sigma^2/n)를 따른다 (근사적이 아님)
표본평균의 기댓값은 μ\mu, 분산은 σ2/n\sigma^2/n 로, nn이 커질수록 분산이 00에 가까워짐 (μ\mu 근처에 밀집) 표본평균의 표준편차는 특히 표준오차(standard error)라고 부름

1.6 Lognormal Distribution

Lognormal Distribution
Ylognormalif    ln(Y)N(Y=ex,  ln(Y)=x)Y \sim lognormal \quad \text{if \; $ln(Y) \sim N$} \\ (Y=e^x,\; ln(Y)=x)
lognormal distribution is skewed to the right(positive skewness)
lognormal dist. is bounded from below by zero so that it is useful for modeling asset price which never takes negative values (e.g. stock price)

2. Student t-분포

2.1 Student t-분포

데이터 분석 실무에서는 자연 현상 중 많은 것들을 정규분포를 따르는 확률 변수로 모형화하여 사용하고 있으나, 실제 데이터들은 양 끝단의 비중이 더 큰 fat tail 현상을 보이는 경우가 많음
student t 분포: 표준정규분포와 같이 좌우대칭이지만, 자유도에 따라 봉우리의 납작한 정도가 달라짐
자유도가 작을수록 봉우리가 납작하고, 자유도가 커질수록 봉우리가 높아져 표준정규분포에 근접하게 됨
확률밀도함수
t(x;  μ,σ2,ν)=Γ(ν+12)νπΓ(ν2)(1+(xμ)2νσ2)ν12t(x; \; \mu, \sigma^2, \nu)= \frac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\nu\pi}\Gamma(\frac{\nu}{2})}(1+\frac{(x-\mu)^2}{\nu\sigma^2})^{-\frac{\nu-1}{2}}
Γ(x)=0ux1eudu\Gamma(x) = \int^\infty_0u^{x-1}e^{-u}du
모수: 정규분포와 달리 정수값을 가지는 자유도(degree of freedom) 모수 ν\nu 를 추가적으로 가짐
기댓값과 분산
기댓값: E[X]=0E[X] = 0
분산: Var[X]=νσ2ν2Var[X] = \dfrac{\nu\sigma^2}{\nu-2} (ν>2\nu>2 일 때만 적용. ν=1,2\nu=1, 2 일 때는 분산이 무한대)

2.2 t 통계량

정규분포로부터 얻은 nn개의 표본에서 계산한 표본평균(샘플평균)표본표준편차(샘플 표준편차)로 정규화 한 값
자유도가 n1n-1인 student t분포를 따름
t=xˉμsNt(x;  0,1,n1)t = \frac{\bar x - \mu}{\frac{s}{\sqrt N}} \sim t(x; \;0, 1, n-1)
cf) 이론적 표준편차라는 상수로 정규화한 샘플 평균은 정규 분포를 따름
z=xˉμσNN(x;  0,1)z = \frac{\bar x - \mu}{\frac{\sigma}{\sqrt N}} \sim N(x; \;0, 1)
통계량(statistics)이란 복수의 샘플 데이터 집합을 수치적으로 연산하여 구한 숫자(→ 확률변수)로,
student t 분포는 "정규화된 샘플 평균"이라는 통계량이 따르는 분포
t-분포표에는 모집단 모수 추정/검증에서 자주 사용되는 유의수준(αα)을 기준으로 자유도별로 오른쪽 꼬리부분의 면적에 상응하는 t-값이 나타남

3. 카이제곱분포 (𝝌²분포)

대표적으로 모집단의 분산을 추정할 때 사용되는 연속확률분포
정규분포를 따르는 확률변수 XXnn개 샘플(x1,...,xnx_1, ..., x_n)의 평균을 제곱합하면 양수값만을 갖는 카이제곱 분포를 따름
cf) 샘플의 평균을 샘플 분산으로 정규화하면 student-t 분포
표기
xiN(x)i=1nxi2χ2(x;n)x_i \sim N(x) \rarr \sum^n_{i=1}x^2_i \sim \chi^2(x; n)
자유도(degree of freedom)을 모수로 가짐 (확률변수 χ2\chi^2이 모집단에서 몇 개의 개체를 뽑아 만든 표본의 확률변수인지, 즉 nn 값에 따라 모양이 달라짐)
확률 밀도 함수
χ2(x;  ν)=x(ν21)e(x/2)2v/2Γ(ν2)\chi^2(x; \; \nu)=\frac{x^{(\frac{\nu}{2}-1)}e^{-(x/2)}}{2^{v/2}\Gamma(\frac{\nu}{2})}
표준정규분포를 따르는 확률변수의 제곱(Z2Z^2)의 합으로 구성되어있는 확률변수 χ2\chi^2가 카이제곱분포의 특성을 갖는 확률분포를 따름
확률변수 χ2=Z12+Z22++Zn2\text{확률변수 }\chi^2 = Z^2_1+Z^2_2+ \cdots + Z^2_n
카이제곱 분포의 pdf 그래프

4. F-분포

FF-분포는 카이제곱 분포를 따르는 독립적인 두개의 확률 변수 샘플로부터 생성
x1χ2(n1),  x2χ2(n2)x1/n1x2/n2F(x;n1,n2)x_1 \sim \chi^2(n_1), \; x_2 \sim \chi^2(n_2) \quad \rarr \quad \frac{x_1/n_1}{x_2/n_2} \sim F(x; n_1, n_2)
분자와 분모의 자유도에 따라 모양이 결정
cf) t 분포와 카이제곱 분포는 정규분포를 따르는 하나의 확률 변수 XXnn개의 샘플로부터 생성
확률밀도함수
F(x;  n1,n2)=(n1x)n1n2n2(n1x+n2)n1+n2xB(n12,n22)F(x; \; n_1, n_2) = \frac{\sqrt{\dfrac{(n_1x)^{n_1}n_2^{n_2}}{(n_1x+n_2)^{n_1+n_2}}}}{xB(\frac{n_1}{2},\frac{n_2}{2})}
B(x)B(x)는 베타(Beta)라는 특수 함수
두 개의 모집단 분산을 비교할 때와 분산분석을 통해 두 개 이상의 모집단 평균 사이에 유의한 차이가 존재하는지 여부를 검증할 때 주로 사용
F 분포의 pdf 그래프

5. 통계량 분포의 활용

스튜던트 t분포, 카이제곱분포, F분포는 모두 정규분포의 통계량 분포(statistics distribution)의 일종이다.
선형회귀분석에서 이 통계량 분포들은 각각 다음 값에 대한 확률모형으로 사용된다.
스튜던트 t분포: 추정된 가중치(계수)에 대한 확률 분포
카이제곱분포: 오차 제곱합에 대한 확률 분포
F분포: 비교 대상이 되는 선형모형의 오차 제곱합에 대한 비율의 확률 분포 → R2R^2 , ANOVA 분석