목차
1. 확률적 데이터와 확률 모형
1.1 확률적 데이터
•
항상 동일한 값이 나오는 데이터는 결정론적 데이터,
예측할 수 없고 동일하지 않을 수 있는 값이 나오는 데이터는 확률적 데이터
•
확률적 데이터에서는 데이터 하나하나의 값보다는 어떤 값이 자주 나오고 어떤 값이 드물게 나오는가하는 특성, 즉 데이터 집합의 분포 특성을 나타내는 특징값이 중요함
1) 분포의 위치를 나타내는 특징값 (1차 모멘트)
•
샘플 평균(sample mean, sample average): 데이터 분포의 대략적인 위치
•
샘플 중앙값(sample median): 데이터를 크기 순으로 정렬했을 때 중앙에 위치하는 값
•
샘플 최빈값 (most frequent value, mode): 데이터에서 가장 빈번하게 나오는 값
◦
이산확률변수의 샘플 데이터에서는 쉽게 구할 수 있지만, 연속 확률 분포의 샘플 데이터에서는 동일한 값이 나올 확률이 0이므로 히스토그램과 같이 일정 구간을 분할한 다음 각 구간의 대표값을 이용하여 최빈값의 근사치를 구함
•
파이썬 계산
import numpy as np
np.random.seed(0)
x = np.random.normal(size=1000)
# 샘플 평균, 샘플 중앙값
np.mean(x), np.median(x)
# 샘플 최빈값
ns, bins = np.histogram(x, bins=np.linspace(-10, 10, 20))
M = np.argmax(ns)
bins[M], bins[M+1]
Python
복사
2) 분포의 폭을 대표하는 특징값 (2차 모멘트)
•
샘플 분산(sample variance)
◦
편향 샘플 분산(biased sample variance)
◦
비편향 샘플 분산(unbiased sample variance)
•
샘플 표준편차
•
파이썬 계산
import numpy as np
import scipy as sp
sp.random.seed(0)
x = sp.stats.norm(0, 2).rvs(1000) # mean=0, standard deviation=2
# 샘플 분산
np.var(x)
np.var(x, ddof=1) # unbiased variance
# 샘플 표준편차
np.std(x)
# ignoring NaNs
np.nanvar(x)
np.nanstd(x)
Python
복사
3) 분포의 대칭성을 대표하는 특징값 (3차 모멘트)
•
샘플 왜도(sample skewness): 평균과의 거리의 세제곱을 이용. 왜도가 0이면 대칭을 나타냄
•
skewness 값과 분포의 형태
◦
right-tailed distribution == positively skewed == SK > 0
◦
left-tailed distribution == negatively skewed == SK < 0
4) 분포가 중앙에 몰려 있는 정도를 대표하는 특징값 (4차 모멘트)
•
샘플 첨도(sample kurtosis): 평균과의 거리의 네제곱을 이용. 데이터가 중앙에 몰려있는 정도를 정밀하게 비교하는 데 쓰임
두 확률적 데이터를 비교할 때는 각각의 데이터값으로 비교할 수 없고, 두 확률적 데이터의 특징값을 사용하여 비교함
평균, 분산, 왜도, 첨도까지의 1~4차 모멘트가 같으면 같은 확률적 데이터로 보는 것이 일반적
1.2 확률 모형
•
확률 모형: 확률적 데이터를 생성할 수 있는 어떤 기계(machine) 혹은 기작(mechanism)
◦
실험이나 조사를 통해 데이터를 얻을 때 이러한 데이터를 생성하게 하는 모형이 있다고 가정
•
샘플링(sampling): 우리가 가진 데이터를 확률모형이라고 하는 가상의 주사위에 의해 생성된 것이라고 할 때, 이 주사위를 던져서 데이터를 생성하는 과정
= 표본화, 수집, 실현(realization)
•
확률 모형과 표본 데이터의 특성
◦
확률 모형으로부터 데이터를 여러번 생성하는 경우 실제 데이터 값은 매번 달라질 수 있지만 확률 모형 자체는 변하지 않는다.
◦
확률 모형은 직접 관찰할 수 없다. 다만 확률 모형에서 만들어지는 실제 데이터 값을 이용하여 확률 모형이 이러한 것일 거라고 추정하고 가정할 뿐이다.
◦
확률 모형에서 만들어지는 실제 데이터의 값은 확률 모형이 가진 특성을 반영하고 있다. 다만 데이터의 갯수가 적을수록 부정확하여 확률 모형이 가진 특징을 정확하게 추정할 수 없다.
•
확률 모형의 종류
◦
확률 모형은 확률 질량 함수(pmf) 혹은 확률 밀도 함수(pdf)에 의해 결정됨
◦
현실 세계의 데이터 대부분은 20~30개의 대표적인 확률 모형에서 생성된 것이라고 볼 수 있음
▪
이러한 확률 모형들은 그 확률밀도함수가 쉬운 수식으로 표현되며 여러가지 특성에 대한 연구가 많이 이루어짐
◦
이미 만들어진 이러한 확률 모형 중 내 데이터와 비슷한 걸 골라서 이용할 수 있다.
•
데이터 분석의 과정: 확률 모형을 이용하는 경우 대부분의 데이터 분석은 다음과 같은 과정을 거친다.
1.
데이터를 확보한다.
2.
확보된 데이터를 어떤 확률 모형의 표본으로 가정한다.
3.
데이터의 특성으로부터 확률 모형의 특성을 추정한다.
•
샘플 모멘트 → pdf
4.
구해진 확률 모형의 특성으로 해당 확률 모형의 종류를 결정하고 모수를 추정한다.
•
완전 결정됨. 모형을 갖게되므로 데이터가 필요 없어짐
5.
구해진 확률 모형으로부터 다음에 생성될 데이터나 데이터 특성을 예측한다.
2. 확률변수(Random Variable)
2.1 확률 변수
•
변수(variable)
◦
관심대상 개체들이 갖고 있는 일정한 특성으로서 연구자가 관심을 갖는 특성을 변수로 설정
•
확률변수(random variable)
◦
a quantity resulting from a random experiment that, by chance, can assume different values
◦
일반적 변수는 특정한 하나의 숫자를 대표하지만, 확률 변수는 나올 수 있는 값이 확률적 분포를 가짐
(잘 나오는 값과 그렇지 않은 값이 있음)
▪
예: 고등학생의 키
◦
실험을 통해 나온 결과값들을 자신의 값으로 취하는 특수한 변수로 추측통계에서 중요하게 다뤄지는 개념
◦
무작위 표본추출이라는 일종의 '실험'을 통해 얻은 표본통계량이 곧 확률변수의 특성을 갖고 있음
◦
확률변수인 표본통계량은 모집단 모수의 값을 통계적으로 추정하는 데 핵심적 역할
◦
이산확률변수(discrete random variable) / 연속확률변수(continuous random variable)로 구분
2.2 확률 변수의 수학적 정의
•
확률변수의 수학적 정의
◦
표본공간 𝑆에서 정의된 실함수 𝑋∶ 𝑆→𝑅
▪
표본 공간을 정의역(domain)으로 가지고 실수를 공역(range)으로 가지는 함수
◦
이름은 변수지만 '함수'다! (다루기 쉽게 실수에 대응시켜주는 함수)
•
확률과 확률 변수의 차이점
◦
확률은 표본으로 이루어진 집합, 즉 사건에 대해 할당된 숫자이지만
확률 변수는 표본(sample) 하나 하나에 대해 할당된 숫자
◦
확률은 0부터 1 사이의 숫자만 할당할 수 있지만
확률변수는 모든 실수 범위의 숫자를 할당할 수 있음
•
확률 변수를 정의한다는 것은 표본(sample)이라는 추상적이고 일반적인 개념 대신 숫자라는 명확한 개념을 사용하겠다는 것
데이터 분석을 수행하기 위해서는 결국 표본의 특성(feature)를 숫자로 변환하는 단계가 필요함
2.3 이산 확률 변수
•
이산 확률 변수(discrete random variable): 표본집합 내의 모든 표본에 대해 숫자를 할당했을 때 확률변수 값이 연속적이지 않고 떨어져 있는 경우, 즉 𝑋(𝑆)가 유한이거나 셀 수 있는 집합일 경우
◦
예: 주사위에서 나올 수 있는 모든 면의 집합인 표본집합 { , , , , , } 내의 모든 표본에 대해 다음과 같이 숫자를 할당
▪
X( ) = 1, X( ) = 2, X( ) = 3, X( ) = 4 , X( ) = 5 , X( ) = 6
•
이산 확률 변수를 정의하는 것은 값의 이산성이지 가능한 경우가 유한한 것이 아님 (무한대의 경우의 수가 있을 수 있음)
2.4 연속 확률 변수
•
연속 확률 변수(continuous random variable): 확률 변수 값이 실수(real number) 집합처럼 연속적이고 무한개의 경우의 수를 가지는 확률 변수
◦
예: 시계 바늘이 12시 기준으로 이루는 각도
•
연속 확률 변수에서는 수직선 상의 실수 구간(interval)으로 정의되는 사건을 사건의 기본단위로 사용
◦
단일 구간 사건: 두 개의 실수 숫자로 정의
▪
단일 구간 사건의 확률
◦
복수 구간 사건의 확률: 콜모고로프의 공리에 의해 각 단일 구간 사건의 확률의 합으로 계산
3. 확률분포 (probability distribution)
3.1 확률분포
•
확률분포의 정의
◦
확률은 사건(event)라는 표본의 집합에 대해 할당된 숫자
확률분포는 어떤 사건에 어느 정도의 확률이 할당되었는지를 묘사한 것
◦
확률분포: 확률변수𝑋의 값에 따라 확률이 어떻게 흩어져 있는지를 합이 1인 양수로써 나타낸 것
(어떤 확률변수가 취할 수 있는 모든 가능한 값들과 그에 대응하는 확률을 표시한 것)
◦
의 대응관계
◦
를 확률변수, 를 가 취할수 있는 값, 가 를 취할 확률을 로 함
3.2 누적 분포 함수
= cumulative distribution function, cdf:
•
의 누적분포함수:
◦
는 범위의 끝 (범위의 시작은 )
◦
예: 은 확률 변수가 -∞ 이상 1 미만인 구간 내에 존재할 확률
•
누적 밀도 함수의 특징
◦
◦
◦
•
누적 분포 함수는 확률 분포를 함수라는 편리한 상태로 바꾸어주지만, 어떤 확률 변수 값이 더 자주 나오는지는 알기 어려움
→ 확률 밀도 함수를 활용하자
3.3 확률 밀도 함수
= probability density function, pdf: or
1) 연속 확률 변수의 경우: 확률 밀도 함수
•
확률 밀도 함수: 누적 분포 함수의 미분. 상대적인 확률 분포의 형태를 볼 수 있음 (어떤 확률 변수 값이 더 자주 나오는지)
◦
특정 확률 변수 구간의 확률이 다른 구간에 비해 상대적으로 얼마나 높은가를 나타내는 것이며 그 값 자체가 확률은 아님
•
연속확률변수와 확률밀도함수(probability density function)의 정의
◦
다음 세 가지를 만족하는 함수 𝑝(𝑥)가 존재할 때, 확률변수 𝑋를 연속확률변수라고 하고, 𝑝(𝑥) 를 𝑋의 확률 밀도함수라고 함
•
성질:
•
확률 밀도함수의 특징
◦
-∞ 부터 ∞까지 적분하면 그 값은 1이 된다.
◦
확률 밀도 함수는 0보다 같거나 크다.
2) 이산 확률 변수의 경우: 확률 질량 함수
•
확률 질량 함수(probability mass function)
◦
이산 확률 변수의 가능한 값 하나 하나에 대해 확률을 정의한 함수
◦
4. 확률변수의 기댓값과 분산
4.1 기댓값(expected value)
1) 기댓값
•
기댓값: 샘플 평균에 해당하는 확률분포의 평균 (확률 모형, 정확히는 확률 밀도 함수를 알 때 구할 수 있는 이론적인 평균)
◦
샘플 평균을 구하는 공식에서 와 의미가 다름에 유의
▪
기댓값에서는 나올 수 있는 sample, 샘플 평균에서는 나온 값을 의미 (계산에 확률이 횟수로 들어가 있음, 1/N)
▪
기댓값 & 샘플평균의 이러한 관계가 MCS(몬테카를로 샘플링)에 사용됨
◦
연속 확률 변수의 경우: 확률 밀도 함수 f(x)를 가중치로 x를 적분하여 기댓값을 구함
▪
x가 없으면 1, x가 있으면 확률 밀도를 가중치로 x를 평균냄
•
확률 밀도 함수의 모양과 기댓값
◦
기댓값은 여러가지 가능한 x의 값들을 확률 밀도 값에 따라 가중합 한 것이므로 가장 확률 밀도가 높은 x값 근처의 값이 됨. 즉, 확률 밀도가 모여 있는 근처의 위치를 나타냄
•
기댓값의 성질
◦
상수 C에 대해
◦
선형성
◦
기타
•
샘플 평균의 확률 분포
◦
확률 변수로부터 𝑁개의 표본을 만들어 샘플 평균을 구하면 이 샘플 평균 값도 예측이 불가능한 확률 변수임
◦
샘플 평균의 확률 변수
▪
는 번째로 실현된 샘플 값을 생성하는 확률 변수를 의미함 (원래의 확률 변수 X의 복사본)
•
기댓값과 샘플 평균의 관계
◦
샘플 평균의 기댓값은 원래의 확률 변수의 기댓값과 일치함
2) 중앙값
•
확률 분포로부터의 이론적 중앙값은 그 값보다 큰 값이 나올 확률과 작은 값이 나올 확률이 동일하게 0.5인 것을 이용하여 계산
3) 최빈값
•
이산 확률 분포에서는 가장 확률값이 큰 수
•
연속 확률 분포에서는 확률 밀도 함수의 값이 가장 큰 확률 변수의 값. 즉, 확률 밀도 함수의 최댓값의 위치
◦
최적화
•
pdf에서는 함수니까 구할 수 있지만 sample data에서는 구할 수 없음
4) 기댓값, 중앙값, 최빈값의 비교
•
확률 밀도 함수가 대칭인 경우: 기댓값 = 중앙값 = 최빈값
•
확률 밀도 함수가 대칭이 아닌 경우(skewed): 아래처럼 달라질 수 있음
•
계산량: 기댓값은 계산이 쉬움, 중앙값은 계산량 증가, 최빈값은 최적화 과정을 통해 구하므로 계산량이 가장 많고 오차가 큼
•
sample data에서는 mode 계산 불가, median 계산 어려움 (계산량이 많음)
•
mean을 쓰면 안되는 경우(대표값으로의 의미가 떨어짐)
◦
e.g. x > 0 제한 조건이 있는 경우 (가격, 수량 등)
•
기댓값은 이상치나 skewness에 영향을 많이 받지만 중앙값이나 최빈값은 이에 대한 영향이 적음
4.2 분산(variance)과 표준편차(standard deviation)
1) 확률 분포의 분산
•
확률 밀도 함수 f(x)의 수식을 알고 있다면 이론적인 분산을 구할 수 있음
•
분산: 확률변수의 값을 만들어내는 실험이 반복될 경우 확률변수 𝑋가 취하는 값들이 기댓값 𝐸(𝑋)를 중심으로 어느 정도로 퍼져 있는지 그 정도를 나타내는 통계량
◦
이산 확률 변수의 경우: 확률 질량 함수 P(x)를 사용하여 계산
◦
연속 확률 변수의 경우: 확률 밀도 함수 f(x)를 사용하여 계산
◦
평균 - 데이터의 거리 제곱을 확률 P(x) 또는 확률 밀도 f(x)를 가중치로 하여 평균한 것으로 볼 수 있음
•
간단계산법 (제평평제: 제곱의 평균 - 평균의 제곱)
•
샘플 분산과 분산의 개념 비교
•
표준편차
2) 분산과 표준편차의 성질
•
•
•
•
랜덤 변수가 아닌 상수값 에 대해,
3) 두 확률 변수의 합의 분산
•
두 확률 변수 X, Y의 합의 분산은 각 확률 변수의 분산의 합과 다음과 같은 관계가 있음
(마지막 항은 양수/음수가 될 수 있음)
•
이 때 두 확률 변수 X, Y가 서로 독립이면 두 확률 변수의 합의 분산은 분산의 합과 같음
4) 샘플 평균의 분산
•
확률 변수 X의 샘플 평균의 기대값은 원래 확률 변수 X의 기대값과 일치함
•
샘플 평균의 분산은 원래 확률 변수 X의 분산과 다음과 같은 관계를 가짐
◦
샘플 평균을 취하는 샘플의 수가 커지면 샘플 평균의 값은 변동이 작아짐
샘플의 수가 무한대로 다가가면 샘플 평균의 값은 항상 일정한 값이 나옴
•
의미
◦
데이터를 생성하는 확률 변수의 기댓값을 구하려면 확률 밀도 함수의 수식을 알아야 하지만 우리는 정확히 알지 못한다.
◦
하지만 샘플 평균이라는 새로운 확률 변수의 기댓값은 원래 확률 변수의 기댓값과 같으므로 이 값을 알면 된다.
◦
만약 샘플의 갯수가 크면 샘플 평균의 분산이 아주 작아지므로 샘플 평균의 샘플 값과 샘플 평균의 기댓값은 거의 같은 값이다.
◦
따라서 샘플 평균의 기댓값을 구하면 원래 확률 변수의 기댓값의 근사값을 구할 수 있다.
5) 샘플 분산의 기댓값
•
샘플 분산의 기댓값을 구하면 이론적인 분산과 같아지는 것이 아니라 이론적인 분산값의 (N- 1) / N 이 된다. 즉, 작아진다.
•
따라서 샘플 분산의 기댓값이 정확하게 이론적인 분산이 되려면 거리제곱의 평균을 구할 때 분모가 N이 아니라 N-1이 되어야 함
◦
단 샘플 크기가 20-30개가 넘어가면 biased - unbiased 간에 큰 차이가 없음
4.3 표준화(standardization)
•
𝑋 의 표준화의 정의
•
𝑍 의 성질