Search
🎲

확률통계 2-2. 확률 변수와 확률 분포

Created at
2019/10/31
Updated at
2021/01/25
Tags
Keywords
기초 확률
3 more properties
목차

1. 확률적 데이터와 확률 모형

1.1 확률적 데이터

항상 동일한 값이 나오는 데이터는 결정론적 데이터, 예측할 수 없고 동일하지 않을 수 있는 값이 나오는 데이터는 확률적 데이터
확률적 데이터에서는 데이터 하나하나의 값보다는 어떤 값이 자주 나오고 어떤 값이 드물게 나오는가하는 특성, 즉 데이터 집합의 분포 특성을 나타내는 특징값이 중요함

1) 분포의 위치를 나타내는 특징값 (1차 모멘트)

샘플 평균(sample mean, sample average): 데이터 분포의 대략적인 위치
m=xˉ=1Ni=1Nxim = \bar x = \frac{1}{N} \sum^N_{i=1} x_i
샘플 중앙값(sample median): 데이터를 크기 순으로 정렬했을 때 중앙에 위치하는 값
샘플 최빈값 (most frequent value, mode): 데이터에서 가장 빈번하게 나오는 값
이산확률변수의 샘플 데이터에서는 쉽게 구할 수 있지만, 연속 확률 분포의 샘플 데이터에서는 동일한 값이 나올 확률이 0이므로 히스토그램과 같이 일정 구간을 분할한 다음 각 구간의 대표값을 이용하여 최빈값의 근사치를 구함
파이썬 계산
import numpy as np np.random.seed(0) x = np.random.normal(size=1000) # 샘플 평균, 샘플 중앙값 np.mean(x), np.median(x) # 샘플 최빈값 ns, bins = np.histogram(x, bins=np.linspace(-10, 10, 20)) M = np.argmax(ns) bins[M], bins[M+1]
Python
복사

2) 분포의 폭을 대표하는 특징값 (2차 모멘트)

샘플 분산(sample variance)
편향 샘플 분산(biased sample variance)
s2=1Ni=1N(xim)2s^2 = \frac{1}{N} \sum^N_{i=1} (x_i-m)^2
비편향 샘플 분산(unbiased sample variance)
sunbiased2=1N1i=1N(xim)2s^2_{\text unbiased} = \frac{1}{N-1} \sum^N_{i=1} (x_i-m)^2
샘플 표준편차
파이썬 계산
import numpy as np import scipy as sp sp.random.seed(0) x = sp.stats.norm(0, 2).rvs(1000) # mean=0, standard deviation=2 # 샘플 분산 np.var(x) np.var(x, ddof=1) # unbiased variance # 샘플 표준편차 np.std(x) # ignoring NaNs np.nanvar(x) np.nanstd(x)
Python
복사

3) 분포의 대칭성을 대표하는 특징값 (3차 모멘트)

샘플 왜도(sample skewness): 평균과의 거리의 세제곱을 이용. 왜도가 0이면 대칭을 나타냄
1Ni=1N(xixˉ)31N1i=1N(xixˉ)23=1Ni=1N(xixˉ)3[1N1i=1N(xixˉ)2]3/2\frac{\frac{1}{N} \sum^N_{i=1}(x_i - \bar x)^3}{\sqrt{\frac{1}{N-1} \sum^N_{i=1}(x_i - \bar x)^2}^3} = \frac{\frac{1}{N} \sum^N_{i=1}(x_i - \bar x)^3}{ \Bigl[ \frac{1}{N-1} \sum^N_{i=1}(x_i - \bar x)^2 \Bigr]^{3/2}}
skewness 값과 분포의 형태
right-tailed distribution == positively skewed == SK > 0
left-tailed distribution == negatively skewed == SK < 0

4) 분포가 중앙에 몰려 있는 정도를 대표하는 특징값 (4차 모멘트)

샘플 첨도(sample kurtosis): 평균과의 거리의 네제곱을 이용. 데이터가 중앙에 몰려있는 정도를 정밀하게 비교하는 데 쓰임
1Ni=1N(xixˉ)4(1Ni=1N(xixˉ)2)23\frac{\frac{1}{N} \sum^N_{i=1}(x_i - \bar x)^4}{ \Bigl(\frac{1}{N} \sum^N_{i=1}(x_i - \bar x)^2 \Bigr)^2} - 3
두 확률적 데이터를 비교할 때는 각각의 데이터값으로 비교할 수 없고, 두 확률적 데이터의 특징값을 사용하여 비교함 평균, 분산, 왜도, 첨도까지의 1~4차 모멘트가 같으면 같은 확률적 데이터로 보는 것이 일반적

1.2 확률 모형

확률 모형: 확률적 데이터를 생성할 수 있는 어떤 기계(machine) 혹은 기작(mechanism)
실험이나 조사를 통해 데이터를 얻을 때 이러한 데이터를 생성하게 하는 모형이 있다고 가정
샘플링(sampling): 우리가 가진 데이터를 확률모형이라고 하는 가상의 주사위에 의해 생성된 것이라고 할 때, 이 주사위를 던져서 데이터를 생성하는 과정
= 표본화, 수집, 실현(realization)
확률 모형과 표본 데이터의 특성
확률 모형으로부터 데이터를 여러번 생성하는 경우 실제 데이터 값은 매번 달라질 수 있지만 확률 모형 자체는 변하지 않는다.
확률 모형은 직접 관찰할 수 없다. 다만 확률 모형에서 만들어지는 실제 데이터 값을 이용하여 확률 모형이 이러한 것일 거라고 추정하고 가정할 뿐이다.
확률 모형에서 만들어지는 실제 데이터의 값은 확률 모형이 가진 특성을 반영하고 있다. 다만 데이터의 갯수가 적을수록 부정확하여 확률 모형이 가진 특징을 정확하게 추정할 수 없다.
확률 모형의 종류
확률 모형은 확률 질량 함수(pmf) 혹은 확률 밀도 함수(pdf)에 의해 결정됨
현실 세계의 데이터 대부분은 20~30개의 대표적인 확률 모형에서 생성된 것이라고 볼 수 있음
이러한 확률 모형들은 그 확률밀도함수가 쉬운 수식으로 표현되며 여러가지 특성에 대한 연구가 많이 이루어짐
이미 만들어진 이러한 확률 모형 중 내 데이터와 비슷한 걸 골라서 이용할 수 있다.
데이터 분석의 과정: 확률 모형을 이용하는 경우 대부분의 데이터 분석은 다음과 같은 과정을 거친다.
1.
데이터를 확보한다.
2.
확보된 데이터를 어떤 확률 모형의 표본으로 가정한다.
3.
데이터의 특성으로부터 확률 모형의 특성을 추정한다.
샘플 모멘트 → pdf
4.
구해진 확률 모형의 특성으로 해당 확률 모형의 종류를 결정하고 모수를 추정한다.
완전 결정됨. 모형을 갖게되므로 데이터가 필요 없어짐
5.
구해진 확률 모형으로부터 다음에 생성될 데이터나 데이터 특성을 예측한다.

2. 확률변수(Random Variable)

2.1 확률 변수

변수(variable)
관심대상 개체들이 갖고 있는 일정한 특성으로서 연구자가 관심을 갖는 특성을 변수로 설정
확률변수(random variable)
a quantity resulting from a random experiment that, by chance, can assume different values
일반적 변수는 특정한 하나의 숫자를 대표하지만, 확률 변수는 나올 수 있는 값이 확률적 분포를 가짐 (잘 나오는 값과 그렇지 않은 값이 있음)
예: 고등학생의 키 xx
실험을 통해 나온 결과값들을 자신의 값으로 취하는 특수한 변수로 추측통계에서 중요하게 다뤄지는 개념
무작위 표본추출이라는 일종의 '실험'을 통해 얻은 표본통계량이 곧 확률변수의 특성을 갖고 있음
확률변수인 표본통계량은 모집단 모수의 값을 통계적으로 추정하는 데 핵심적 역할
이산확률변수(discrete random variable) / 연속확률변수(continuous random variable)로 구분

2.2 확률 변수의 수학적 정의

확률변수의 수학적 정의
표본공간 𝑆에서 정의된 실함수 𝑋∶ 𝑆→𝑅
표본 공간을 정의역(domain)으로 가지고 실수를 공역(range)으로 가지는 함수
이름은 변수지만 '함수'다! (다루기 쉽게 실수에 대응시켜주는 함수)
확률확률 변수의 차이점
확률은 표본으로 이루어진 집합, 즉 사건에 대해 할당된 숫자이지만 확률 변수는 표본(sample) 하나 하나에 대해 할당된 숫자
확률은 0부터 1 사이의 숫자만 할당할 수 있지만 확률변수는 모든 실수 범위의 숫자를 할당할 수 있음
확률 변수를 정의한다는 것은 표본(sample)이라는 추상적이고 일반적인 개념 대신 숫자라는 명확한 개념을 사용하겠다는 것
데이터 분석을 수행하기 위해서는 결국 표본의 특성(feature)를 숫자로 변환하는 단계가 필요함

2.3 이산 확률 변수

이산 확률 변수(discrete random variable): 표본집합 내의 모든 표본에 대해 숫자를 할당했을 때 확률변수 값이 연속적이지 않고 떨어져 있는 경우, 즉 𝑋(𝑆)가 유한이거나 셀 수 있는 집합일 경우
예: 주사위에서 나올 수 있는 모든 면의 집합인 표본집합 { ,  ,  ,  ,  ,  } 내의 모든 표본에 대해 다음과 같이 숫자를 할당
X( ) = 1, X( ) = 2, X( ) = 3, X( ) = 4 , X( ) = 5 , X( ) = 6
이산 확률 변수를 정의하는 것은 값의 이산성이지 가능한 경우가 유한한 것이 아님 (무한대의 경우의 수가 있을 수 있음)

2.4 연속 확률 변수

연속 확률 변수(continuous random variable): 확률 변수 값이 실수(real number) 집합처럼 연속적이고 무한개의 경우의 수를 가지는 확률 변수
예: 시계 바늘이 12시 기준으로 이루는 각도
연속 확률 변수에서는 수직선 상의 실수 구간(interval)으로 정의되는 사건을 사건의 기본단위로 사용
단일 구간 사건: 두 개의 실수 숫자로 정의
A={ω;aX(ω)<b}={aX<b}A = \{\omega; a \leq X(\omega) < b \} = \{ a \leq X < b \}
단일 구간 사건의 확률
P(A)=P({ω;aX(ω)<b})=P({aX<b})=P(a,b)P(A) = P(\{\omega; a \leq X(\omega) < b \}) = P(\{a \leq X < b\}) = P(a,b)
복수 구간 사건의 확률: 콜모고로프의 공리에 의해 각 단일 구간 사건의 확률의 합으로 계산

3. 확률분포 (probability distribution)

3.1 확률분포

확률분포의 정의
확률은 사건(event)라는 표본의 집합에 대해 할당된 숫자 확률분포는 어떤 사건에 어느 정도의 확률이 할당되었는지를 묘사한 것
확률분포: 확률변수𝑋의 값에 따라 확률이 어떻게 흩어져 있는지를 합이 1인 양수로써 나타낸 것 (어떤 확률변수가 취할 수 있는 모든 가능한 값들과 그에 대응하는 확률을 표시한 것)
𝐴𝑅,𝐴𝑃(𝑋𝐴)∀𝐴 ⊂ 𝑅, 𝐴 ⟼ 𝑃(𝑋∈𝐴) 의 대응관계
𝑋𝑋를 확률변수, 𝑥𝑥𝑋𝑋가 취할수 있는 값, 𝑋𝑋𝑥𝑥를 취할 확률을 𝑃(𝑋=𝑥)𝑃(𝑋=𝑥)로 함

3.2 누적 분포 함수

= cumulative distribution function, cdf: 𝐹(𝑥)𝐹(𝑥)
𝑋𝑋의 누적분포함수: 𝐹(𝑥)=𝑃(𝑋𝑥)𝐹(𝑥) = 𝑃(𝑋 ≦ 𝑥)
𝑥𝑥는 범위의 끝 (범위의 시작은 -∞)
예: 𝐹(1)𝐹(1)은 확률 변수가 -∞ 이상 1 미만인 구간 내에 존재할 확률
누적 밀도 함수의 특징
𝐹()=0𝐹(-∞) = 0
𝐹(+)=1𝐹(+∞) = 1
𝐹(𝑥)𝐹(y) if 𝑥y𝐹(𝑥) ≥ 𝐹(y) \text{ if } 𝑥 > y
누적 분포 함수는 확률 분포를 함수라는 편리한 상태로 바꾸어주지만, 어떤 확률 변수 값이 더 자주 나오는지는 알기 어려움
→ 확률 밀도 함수를 활용하자

3.3 확률 밀도 함수

= probability density function, pdf: 𝑝(𝑥)𝑝(𝑥) or f(𝑥)f(𝑥)

1) 연속 확률 변수의 경우: 확률 밀도 함수

확률 밀도 함수: 누적 분포 함수의 미분. 상대적인 확률 분포의 형태를 볼 수 있음 (어떤 확률 변수 값이 더 자주 나오는지)
특정 확률 변수 구간의 확률이 다른 구간에 비해 상대적으로 얼마나 높은가를 나타내는 것이며 그 값 자체가 확률은 아님
dF(x)dx=f(X)\frac{dF(x)}{dx} = f(X)
연속확률변수와 확률밀도함수(probability density function)의 정의
다음 세 가지를 만족하는 함수 𝑝(𝑥)가 존재할 때, 확률변수 𝑋를 연속확률변수라고 하고, 𝑝(𝑥) 를 𝑋의 확률 밀도함수라고 함
(a)p(x)0,xR(b)p(x)dx=1(c)P(aXb)=p(x)dx,a<b\begin{aligned} (a) & \,\, p(x) \geqq 0, \quad \forall x \in R \\ (b) & \,\, \int^\infty_\infty p(x)dx = 1 \\ (c) & \,\, P(a \leqq X \leqq b) = \int^\infty_\infty p(x)dx, \quad -\infty \leqq a < b \leqq \infty \end{aligned}
성질: 𝑥𝑅,𝑃(𝑋=𝑥)=0∀𝑥 ∈ 𝑅, \,\, 𝑃(𝑋=𝑥) = 0
확률 밀도함수의 특징
-∞ 부터 ∞까지 적분하면 그 값은 1이 된다.
f(u)du=1\int^\infty_{-\infty} f(u)du = 1
확률 밀도 함수는 0보다 같거나 크다.
f(X)0f(X) \geq 0

2) 이산 확률 변수의 경우: 확률 질량 함수

확률 질량 함수(probability mass function)
이산 확률 변수의 가능한 값 하나 하나에 대해 확률을 정의한 함수
X(S)=x1,x2,일 때(i) 정의:p(x)={P(X=xi),x=xi(i=1,2,)0,o.w.(ii)성질:(a)  0p(xi)1,    i(b)i=1p(xi)=1(c)P(a<Xb)=a<xibp(xi),  a<b\begin{aligned} & X(S) = {x_1, x_2, \cdots} \text{일 때} \\ & (i) \text{ 정의:}\,\, p(x)=\begin{cases} P(X=x_i), & x=x_i (i=1, 2, \cdots) \\ 0, & {o.w.} \end{cases} \\ & \begin{aligned} (ii) { 성질: }\,\, (a) & \; 0 \leqq p(x_i) \leqq 1, \; \forall \; i \\ (b) & \,\, \sum^\infty_{i=1} p(x_i) = 1 \\ (c) & \,\, P(a < X \leqq b) = \sum_{a<x_i \leqq b} p(x_i), \quad \forall \; a < b \end{aligned} \end{aligned}

4. 확률변수의 기댓값과 분산

4.1 기댓값(expected value)

1) 기댓값

기댓값: 샘플 평균에 해당하는 확률분포의 평균 (확률 모형, 정확히는 확률 밀도 함수를 알 때 구할 수 있는 이론적인 평균)
μX=E(X)={xiΩxiP(xi),X: discrete typexf(x)dx,X: continuous type\mu_X = E(X) = \begin{cases}\sum_{x_i \in \Omega} x_i P(x_i), \quad \text{X: discrete type} \\ \int^\infty_{-\infty} x f(x) dx, \quad \text{X: continuous type} \end{cases}
샘플 평균을 구하는 공식에서 xix_i 와 의미가 다름에 유의
기댓값에서는 나올 수 있는 sample, 샘플 평균에서는 나온 값을 의미 (계산에 확률이 횟수로 들어가 있음, 1/N)
m=xˉ=1Ni=1Nxim = \bar x = \frac{1}{N} \sum^N_{i=1} x_i
기댓값 & 샘플평균의 이러한 관계가 MCS(몬테카를로 샘플링)에 사용됨
연속 확률 변수의 경우: 확률 밀도 함수 f(x)를 가중치로 x를 적분하여 기댓값을 구함
x가 없으면 1, x가 있으면 확률 밀도를 가중치로 x를 평균냄
확률 밀도 함수의 모양과 기댓값
기댓값은 여러가지 가능한 x의 값들을 확률 밀도 값에 따라 가중합 한 것이므로 가장 확률 밀도가 높은 x값 근처의 값이 됨. 즉, 확률 밀도가 모여 있는 근처의 위치를 나타냄
기댓값의 성질
상수 C에 대해
E(c)=cE(c) = c
선형성
E(cX)=c(E(X))E(X+Y)=E(X)+E(Y)E(cX) = c(E(X)) \\ E(X + Y) = E(X) + E(Y)
기타
E(XY)=E(X)E(Y)when X&Y are independentE(XY)E(X)E(Y)when X&Y aren’t independentE(X2)[E(X)]2E(XY) = E(X) * E(Y) \quad \text{when $X\&Y$ are independent} \\ E(XY) \ne E(X) * E(Y) \quad \text{when $X\&Y$ aren't independent} \\ E(X^2) \ne [E(X)]^2
샘플 평균의 확률 분포
확률 변수로부터 𝑁개의 표본을 만들어 샘플 평균을 구하면 이 샘플 평균 값도 예측이 불가능한 확률 변수임
샘플 평균의 확률 변수
Xˉ=1Ni=1NXi\bar X = \frac{1}{N} \sum^N_{i=1}X_i
XiX_iii번째로 실현된 샘플 값을 생성하는 확률 변수를 의미함 (원래의 확률 변수 X의 복사본)
기댓값과 샘플 평균의 관계
샘플 평균의 기댓값은 원래의 확률 변수의 기댓값과 일치함
E(Xˉ)=E(X)E(\bar X) = E(X)

2) 중앙값

확률 분포로부터의 이론적 중앙값은 그 값보다 큰 값이 나올 확률과 작은 값이 나올 확률이 동일하게 0.5인 것을 이용하여 계산
median=F1(0.5)0.5=F(median)median = F^{-1}(0.5) \\ 0.5 = F(median)

3) 최빈값

이산 확률 분포에서는 가장 확률값이 큰 수
연속 확률 분포에서는 확률 밀도 함수의 값이 가장 큰 확률 변수의 값. 즉, 확률 밀도 함수의 최댓값의 위치
mode=argmaxxf(x)mode = arg \max_x f(x)
최적화
pdf에서는 함수니까 구할 수 있지만 sample data에서는 구할 수 없음

4) 기댓값, 중앙값, 최빈값의 비교

확률 밀도 함수가 대칭인 경우: 기댓값 = 중앙값 = 최빈값
확률 밀도 함수가 대칭이 아닌 경우(skewed): 아래처럼 달라질 수 있음
계산량: 기댓값은 계산이 쉬움, 중앙값은 계산량 증가, 최빈값은 최적화 과정을 통해 구하므로 계산량이 가장 많고 오차가 큼
sample data에서는 mode 계산 불가, median 계산 어려움 (계산량이 많음)
mean을 쓰면 안되는 경우(대표값으로의 의미가 떨어짐)
e.g. x > 0 제한 조건이 있는 경우 (가격, 수량 등)
기댓값은 이상치나 skewness에 영향을 많이 받지만 중앙값이나 최빈값은 이에 대한 영향이 적음

4.2 분산(variance)과 표준편차(standard deviation)

1) 확률 분포의 분산

확률 밀도 함수 f(x)의 수식을 알고 있다면 이론적인 분산을 구할 수 있음
분산: 확률변수의 값을 만들어내는 실험이 반복될 경우 확률변수 𝑋가 취하는 값들이 기댓값 𝐸(𝑋)를 중심으로 어느 정도로 퍼져 있는지 그 정도를 나타내는 통계량
σ2=Var(X)=E{(Xμ)}2\sigma^2 = Var(X) = E{\{(X-\mu)\}}^2
이산 확률 변수의 경우: 확률 질량 함수 P(x)를 사용하여 계산
σ2=Var(X)=E(Xμ)2=xΩ(xiμ)2P(xi)\sigma^2 = Var(X) = E{(X- \mu)^2} = \sum_{x \in \Omega} (x_i - \mu)^2 P(x_i)
연속 확률 변수의 경우: 확률 밀도 함수 f(x)를 사용하여 계산
σ2=Var(X)=E(Xμ)2=(xiμ)2f(x)dx\sigma^2 = Var(X) = E{(X- \mu)^2} = \int^\infty_{-\infty} (x_i - \mu)^2 f(x)dx
평균 - 데이터의 거리 제곱을 확률 P(x) 또는 확률 밀도 f(x)를 가중치로 하여 평균한 것으로 볼 수 있음
간단계산법 (제평평제: 제곱의 평균 - 평균의 제곱)
V𝑎𝑟(𝑋)=𝐸(𝑋2){𝐸(𝑋)}2=E(X2)μ2V𝑎𝑟(𝑋) = 𝐸(𝑋^2) − {\{𝐸(𝑋)\}}^2 = E(X^2) - \mu^2
샘플 분산과 분산의 개념 비교
표준편차
σ=sd(X)=Var(X)\sigma = sd(X) = \sqrt{Var(X)}

2) 분산과 표준편차의 성질

Var(aX+b)=a2Var(X)Var(aX + b) = a^2Var(X)
sd(aX+b)=asd(X)sd(aX + b) = |a|sd(X)
Var(X)0,sd(X)0Var(X) \geqq 0, \quad sd(X) \geqq 0
랜덤 변수가 아닌 상수값 cc에 대해, Var(c)=0Var(c) = 0

3) 두 확률 변수의 합의 분산

두 확률 변수 X, Y의 합의 분산은 각 확률 변수의 분산의 합과 다음과 같은 관계가 있음 (마지막 항은 양수/음수가 될 수 있음)
Var(X+Y)=Var(X)+Var(Y)+2E{(XμX)(YμY)}Var(X + Y) = Var(X) + Var(Y) + 2E\{(X - \mu_X)(Y - \mu_Y)\}
이 때 두 확률 변수 X, Y가 서로 독립이면 두 확률 변수의 합의 분산은 분산의 합과 같음
Var(X+Y)=Var(X)+Var(Y)2E{(XμX)(YμY)}=0Var(X + Y) = Var(X) + Var(Y) \\ 2E\{(X - \mu_X)(Y - \mu_Y)\} = 0

4) 샘플 평균의 분산

확률 변수 X의 샘플 평균의 기대값은 원래 확률 변수 X의 기대값과 일치함
E(Xˉ)=E(X)E(\bar X) = E(X)
샘플 평균의 분산은 원래 확률 변수 X의 분산과 다음과 같은 관계를 가짐
Var(Xˉ)=1NVar(X)Var(\bar X) = \frac{1}{N} Var(X)
샘플 평균을 취하는 샘플의 수가 커지면 샘플 평균의 값은 변동이 작아짐 샘플의 수가 무한대로 다가가면 샘플 평균의 값은 항상 일정한 값이 나옴
의미
데이터를 생성하는 확률 변수의 기댓값을 구하려면 확률 밀도 함수의 수식을 알아야 하지만 우리는 정확히 알지 못한다.
하지만 샘플 평균이라는 새로운 확률 변수의 기댓값은 원래 확률 변수의 기댓값과 같으므로 이 값을 알면 된다.
만약 샘플의 갯수가 크면 샘플 평균의 분산이 아주 작아지므로 샘플 평균의 샘플 값과 샘플 평균의 기댓값은 거의 같은 값이다.
따라서 샘플 평균의 기댓값을 구하면 원래 확률 변수의 기댓값의 근사값을 구할 수 있다.
XˉE(X)\bar X \cong E(X)

5) 샘플 분산의 기댓값

샘플 분산의 기댓값을 구하면 이론적인 분산과 같아지는 것이 아니라 이론적인 분산값의 (N- 1) / N 이 된다. 즉, 작아진다.
E(S2)=N1Nσ2E(S^2) = \frac{N-1}{N}\sigma^2
따라서 샘플 분산의 기댓값이 정확하게 이론적인 분산이 되려면 거리제곱의 평균을 구할 때 분모가 N이 아니라 N-1이 되어야 함
단 샘플 크기가 20-30개가 넘어가면 biased - unbiased 간에 큰 차이가 없음

4.3 표준화(standardization)

𝑋 의 표준화의 정의
XZ=XE(X)sd(X)X \mapsto Z = \frac{X-E(X)}{sd(X)}
𝑍 의 성질
E(Z)=0,sd(Z)=1E(Z) = 0, \quad sd(Z) = 1