목차
1. 정규분포(Normal distribution)
1.1 정규 분포
•
=가우시안 분포(Gaussian distribution)
•
자연현상에서 나타나는 숫자를 확률 모형으로 모형화할 때 가장 많이 사용
•
Abraham De moivre (1667~1754)가 최초로 발견
Pierre-Simon Laplace (1749~1827) – 천문학 등에 이용
Carl Friedrich Gauss (1777~1855) – 물리학과 천문학 등에 폭넓게 응용
•
표기
◦
Parameter가 2개:
•
확률밀도함수
•
정규분포의 성질
◦
정규분포의 확률밀도함수 그래프는 종모양으로 평균에 대하여 대칭
◦
정규분포는 평균과 분산에 의해 완전히 결정 (2개의 파라미터)
▪
평균과 분산이 같은 두 정규분포는 동일한 분포
▪
분산은 같고 평균이 다른 정규분포의 확률밀도함수 비교
▪
평균은 같고 분산이 다른 정규분포의 확률밀도함수 비교
◦
가 평균 로부터 의 사이에 있을 확률
▪
▪
▪
▪
Empirical rule: 68%-95%-99.7%
1.2 Q-Q 플롯
•
본격적인 정규검정(normality test) 전에 간단히 Q-Q 플롯으로 정규분포를 확인할 수 있음
•
Q-Q 플롯: 동일 분위수에 해당하는 정상 분포의 값과 주어진 분포의 값을 한 쌍으로 만들어 scatter plot으로 그린 것
•
그리는 방법
1.
대상 샘플 데이터를 크기로 정렬(sort)한다.
2.
각 샘플 데이터의 분위함수 값(quantile function) 값, 즉 전체 중의 몇 %에 해당하는지 구한다.
3.
각 샘플 데이터의 분위함수 값이 정규 분포의 cdf 값이 되는 표준 정규 분포의 값, 즉 분위수(quantile)을 구한다.
4.
샘플 데이터와 그에 대응하는 정규 분포 값을 한 쌍으로 하나의 점을 그린다.
5.
모든 샘플에 대해 2-4의 과정을 반복하여 scatter plot을 완성한다.
1.3 표준정규분포(standard normal distribution)
•
표준 정규 분포: 평균이 0, 분산이 1인 분포
•
표기
•
표준화 공식의 의미
◦
표준화된 확률변수 𝑍는 확률변수 𝑋의 값이 기대값()으로부터 몇 단위 표준편차()만큼 떨어져 있는지를 나타냄
•
확률밀도함수
•
표준정규분포의 상위 (100 × 𝛼)% 백분위수 계산
◦
예시:
1.4 중심극한정리 (Central Limit Theorem)
의의
•
중심극한정리는 왜 정규분포가 중요한 분포인지 설명함
•
실세계에서 발생하는 많은 현상이 정규분포로 모형화 가능한 이유가 바로 중심극한정리 때문임
•
모집단의 분포(모양)와 상관없이 표본의 크기가 충분히 크다면 표본평균들의 분포가 모집단의 모수를 기반으로한 정규분포를 이룬다는 점을 이용하여 특정 사건이 일어날 확률값을 계산할 수 있음
•
표본 평균들이 이루는 표본 분포와 모집단 간의 관계를 증명함으로써,
수집한 표본의 통계량(statistics)을 이용해서 모집단의 모수(parameter)를 추정할 수 있는 수학적 근거
→ 추측통계학의 근거
•
중심극한정리라는 용어는 1920년 헝가리 수학자 포여 죄르지(George Pólya)가 만들었고, 중심(central)이라는 말은 확률이론의 중심이라고 할 정도로 중요하다는 의미로 붙임
의미
•
모집단의 분포에 상관없이 표본의 크기가 커질수록 표본 평균의 분포는 정규분포에 가까워진다
•
여러 확률 변수(독립적일 때)의 합이 정규 분포와 비슷한 분포를 이루는 현상
원리
설명
•
아래의 확률변수가 평균 , 분산 인 임의의 모집단에서의 랜덤표본일 때,
◦
랜덤표본(random sample): 서로 독립이며 동일한 분포를 갖는 아래 확률변수들의 집합을 크기 의 랜덤표본이라고 함. 분포의 모양은 상관없음(서로 달라도 됨)
▪
i.i.d.: independently identically distributed, 서로 독립적이고 동일한 분포에서 관측된
•
표본크기 이 커질수록, 표본평균의 분포는 모집단의 분포에 상관없이 근사적으로 을 따른다
◦
도 예측할 수 없는 확률변수
•
표준화된 표본평균의 분포는 근사적으로 표준정규분포를 따른다
•
모집단이 정규분포 을 따를 때, 랜덤 표본()의 표본평균은 정규분포 를 따른다 (근사적이 아님)
•
표본평균의 기댓값은 , 분산은 로, 이 커질수록 분산이 에 가까워짐 ( 근처에 밀집)
표본평균의 표준편차는 특히 표준오차(standard error)라고 부름
1.6 Lognormal Distribution
Lognormal Distribution
•
lognormal distribution is skewed to the right(positive skewness)
•
lognormal dist. is bounded from below by zero so that it is useful for modeling asset price which never takes negative values (e.g. stock price)
2. Student t-분포
2.1 Student t-분포
•
데이터 분석 실무에서는 자연 현상 중 많은 것들을 정규분포를 따르는 확률 변수로 모형화하여 사용하고 있으나,
실제 데이터들은 양 끝단의 비중이 더 큰 fat tail 현상을 보이는 경우가 많음
•
student t 분포: 표준정규분포와 같이 좌우대칭이지만, 자유도에 따라 봉우리의 납작한 정도가 달라짐
◦
자유도가 작을수록 봉우리가 납작하고, 자유도가 커질수록 봉우리가 높아져 표준정규분포에 근접하게 됨
•
확률밀도함수
◦
모수: 정규분포와 달리 정수값을 가지는 자유도(degree of freedom) 모수 를 추가적으로 가짐
•
기댓값과 분산
◦
기댓값:
◦
분산: ( 일 때만 적용. 일 때는 분산이 무한대)
2.2 t 통계량
•
정규분포로부터 얻은 개의 표본에서 계산한 표본평균(샘플평균)을 표본표준편차(샘플 표준편차)로 정규화 한 값
•
자유도가 인 student t분포를 따름
•
cf) 이론적 표준편차라는 상수로 정규화한 샘플 평균은 정규 분포를 따름
•
통계량(statistics)이란 복수의 샘플 데이터 집합을 수치적으로 연산하여 구한 숫자(→ 확률변수)로,
student t 분포는 "정규화된 샘플 평균"이라는 통계량이 따르는 분포
•
t-분포표에는 모집단 모수 추정/검증에서 자주 사용되는 유의수준()을 기준으로 자유도별로 오른쪽 꼬리부분의 면적에 상응하는 t-값이 나타남
3. 카이제곱분포 (𝝌²분포)
•
대표적으로 모집단의 분산을 추정할 때 사용되는 연속확률분포
•
정규분포를 따르는 확률변수 의 개 샘플()의 평균을 제곱합하면 양수값만을 갖는 카이제곱 분포를 따름
◦
cf) 샘플의 평균을 샘플 분산으로 정규화하면 student-t 분포
•
표기
◦
자유도(degree of freedom)을 모수로 가짐
(확률변수 이 모집단에서 몇 개의 개체를 뽑아 만든 표본의 확률변수인지, 즉 값에 따라 모양이 달라짐)
•
확률 밀도 함수
•
표준정규분포를 따르는 확률변수의 제곱()의 합으로 구성되어있는 확률변수 가 카이제곱분포의 특성을 갖는 확률분포를 따름
•
카이제곱 분포의 pdf 그래프
4. F-분포
•
-분포는 카이제곱 분포를 따르는 독립적인 두개의 확률 변수 샘플로부터 생성
◦
분자와 분모의 자유도에 따라 모양이 결정
◦
cf) t 분포와 카이제곱 분포는 정규분포를 따르는 하나의 확률 변수 의 개의 샘플로부터 생성
•
확률밀도함수
◦
는 베타(Beta)라는 특수 함수
•
두 개의 모집단 분산을 비교할 때와 분산분석을 통해 두 개 이상의 모집단 평균 사이에 유의한 차이가 존재하는지 여부를 검증할 때 주로 사용
•
F 분포의 pdf 그래프
5. 통계량 분포의 활용
스튜던트 t분포, 카이제곱분포, F분포는 모두 정규분포의 통계량 분포(statistics distribution)의 일종이다.
선형회귀분석에서 이 통계량 분포들은 각각 다음 값에 대한 확률모형으로 사용된다.
•
스튜던트 t분포: 추정된 가중치(계수)에 대한 확률 분포
•
카이제곱분포: 오차 제곱합에 대한 확률 분포
•
F분포: 비교 대상이 되는 선형모형의 오차 제곱합에 대한 비율의 확률 분포 → , ANOVA 분석