Search
🎲

확률통계 2-3. 확률 변수의 상관관계

Created at
2019/11/05
Updated at
2022/02/23
Tags
Keywords
기초 확률
3 more properties
목차

1. 다변수 이산확률변수의 결합/조건부확률

다변수 이산확률변수

카테고리값을 가질 수 있는 두 개 이상의 확률분포에서, 이 확률분포 쌍이 가지는 복합적인 확률분포
확률 변수 X,YX, Y의 각각의 확률적 특성을 확률질량함수(pmf) PX(x),PY(y)P_X(x), P_Y(y) 로 나타낼 수 있음

결합 확률질량함수(joint probability mass function)

두 확률분포에서 특정한 숫자 쌍이 나타나는 확률
PXY(x,y)P_{XY}(x, y)
e.g. PXY(2,3)P_{XY}(2, 3){x=2,y=3}\{x=2, y=3\}이라는 특정한 숫자 쌍으로만 이루어진 사건의 확률

주변 확률질량함수(marginal probability mass function)

각각의 확률질량함수. 두 확률변수 중 하나의 확률변수 값에 대해서만 확률분포를 표시한 함수
→ 다변수가 되기 이전의 단변수 확률질량함수
전체 확률의 법칙(total law)에 의해 다른 변수가 가질 수 있는 모든 값의 결합확률질량함수를 합한 확률
PX(x)=yiPXY(x,yi)PY(y)=xiPXY(xi,y)P_X(x) = \sum_{y_i}P_{XY}(x,y_i) \\ P_Y(y) = \sum_{xi}P_{XY}(x_i,y)

조건부 확률질량함수(conditional probability mass funcion)

다변수 확률변수 중 하나의 값이 특정 값으로 고정되어 상수가 된 경우, 나머지 변수에 대한 확률질량함수
PXY(xy)=PXY(x,y)PY(y)PYX(yx)=PXY(x,y)PX(x)P_{X|Y}(x\,|\,y) = \dfrac{P_{XY}(x,y)}{P_Y(y)} \\ P_{Y|X}(y\,|\,x) = \dfrac{P_{XY}(x,y)}{P_X(x)}
결합질량함수 PXY(x,y)P_{XY}(x, y)에서 yy 값이 고정된 함수, 즉 결합질량함수의 단면과 같음

2. 다변수 연속확률변수의 결합/조건부확률

이산확률분포처럼 atom 이벤트를 이용한 확률 정의가 불가능하므로 단변수 연속확률변수처럼 누적확률분포함수를 정의한 후 이를 미분하여 확률밀도함수를 정의하는 방법을 사용

결합 누적확률분포함수 & 결합 확률밀도함수

결합 누적확률분포함수
FXY(x,y)=P({X<x}{Y<y})=P({X<x,Y<y})F_{XY}(x,y)=P(\{X<x\}\cap\{Y<y\}) = P(\{X<x, Y<y\})
주변 누적확률분포(marginal cumulative probability distribution)
두 독립변수 x,yx, y 중 하나가 무한대값을 가지는 경우 남은 하나에 대한 누적확률분포함수로 줄어듦
FX(x)=Fxy(x,)FY(y)=Fxy(,y)F_X(x) = F_{xy}(x,\infty) \\ F_Y(y) = F_{xy}(\infty, y)
결합 확률밀도함수(joint probability density function)
누적확률분포함수를 미분하여 정의 (독립 변수 2개에 각각에 대해 모두 편미분)
→ 2차원 함수
fXY=2FXY(x,y)xyf_{XY}=\dfrac{\partial^2F_{XY}(x,y)}{\partial x\partial y}
결합 확률밀도함수를 특정 구간에 대해 적분하면 해당 구간에 대한 확률이 됨
x1x2y1y2fXY(x,y)dxdy=P({x1Xx2,y1Yy2})\int^{x_2}_{x_1}\int^{y_2}_{y_1}f_{XY}(x,y)dxdy = P(\{x_1 \leq X \leq x_2, y_1 \leq Y \leq y_2 \})
결합 확률밀도함수를 모든 변수에 대해 -\infty에서 \infty까지 적분하면 값이 1이 됨
fXY(x,y)dxdy=1\int^{\infty}_{-\infty}\int^{\infty}_{-\infty}f_{XY}(x,y)dxdy = 1

주변 확률밀도함수(marginal probability density function)

결합 확률밀도함수를 특정한 하나의 변수에 대해 가중평균한 값
= 결합 확률밀도함수를 하나의 확률변수에 대해서만 적분 → 1차원 함수
fX(x)=fXY(x,y)dyfY(y)=fXY(x,y)dxf_X(x) = \int^{\infty}_{-\infty}f_{XY}(x,y)dy \\ f_Y(y) = \int^{\infty}_{-\infty}f_{XY}(x,y)dx
결합 확률밀도함수(joint pdf)와 주변 확률밀도함수(marginal pdf)의 예시

조건부 확률밀도함수(conditional probability density function)

다변수 확률 변수 중 하나의 값이 특정 값이라는 사실이 알려진 경우, 이러한 조건(가정)에 의해 변화한 나머지 확률변수에 대한 확률밀도함수
fXY(xy)=fXY(x,y)fY(y)fYX(yx)=fXY(x,y)fX(x)f_{X|Y}(x\,|\,y) = \frac{f_{XY}(x,y)}{f_Y(y)} \\ f_{Y|X}(y\,|\,x) = \frac{f_{XY}(x,y)}{f_X(x)}
이 때 조건이 되는 확률변수의 값은 특정한 값으로 고정되어 있으므로 변수가 아니라 모수
e.g. fXY(xy)f_{X|Y}(x\,|\,y) 에서 yy 의 값은 고정되어 있으므로 이 값은 xx 의 함수가 됨

3. 확률 밀도 함수의 독립

3.1 상관과 독립

상관(correlation): 두 확률 변수가 있을 때, 한 확률 변수의 값이 달라지면 다른 확률변수의 조건부 분포가 달라지는 것을 서로 상관관계가 있다고 함
결합 확률 분포에서 한 확률변수를 고정했을 때 생기는 함수나 분포 단면의 모양(profile)이 달라지는 것
독립(independent) : 상관 관계가 아님. 두 확률 변수 X,YX, Y 의 결합 확률 밀도 함수(joint pdf)가 주변 확률 밀도 함수(marginal pdf)의 곱으로 나타나면 두 확률 변수는 서로 독립
예시
선실 class
1
2
4
2
4
8
3
6
12
→ 성별 or class 어느 쪽으로 봐도 독립
남/녀 여부에 따라 class 분포가 달라지지 않음
class 등급에 따라 남녀 분포가 달라지지 않음
다양한 joint pdf 형태와 독립 여부 (기울어진 형태는 독립이 아니다!)

3.2 반복 시행

독립의 대표 사례
같은 확률 변수에서 여러 개의 표본 데이터를 취하는 경우 → 독립인 두 개의 확률 변수에서 나온 표본으로 볼 수 있음
확률 밀도 함수가 f(x)f(x) 이고, 표본 데이터가 {x1,x2,x3,,xN}\{x_1, x_2, x_3, \cdots, x_N\} 이면, 벡터 (x1,x2,x3,,xN)(x_1, x_2, x_3, \cdots, x_N)가 나올 확률은 다음과 같음
f(x1,x2,x3,,xN)=i=1Nf(xi)f(x_1, x_2, x_3, \cdots, x_N) = \prod^N_{i=1}f(x_i)

3.3 조건부 확률분포

독립인 두 확률 변수 X,YX, Y 의 조건부 확률 밀도 함수는 주변 확률 밀도함수와 같음
fXY(xy)=fXY(x,y)fY(y)=fX(x)fY(y)fY(y)=fX(x)fYX(yx)=fXY(x,y)fX(x)=fX(x)fY(y)fX(x)=fY(y)f_{X|Y}(x\,|\,y) = \frac{f_{XY}(x,y)}{f_Y(y)} = \frac{f_X(x)f_Y(y)}{f_Y(y)} = f_X(x) \\ f_{Y|X}(y\,|\,x) = \frac{f_{XY}(x,y)}{f_X(x)} = \frac{f_X(x)f_Y(y)}{f_X(x)} = f_Y(y)
즉, 확률 변수 XX 가 확률 변수 YY 에 독립이면, 조건이 되는 확률 변수의 값에 조건부 확률분포가 영향을 받지 않음. 즉 yy 값과 상관없이 조건부 확률 분포 f(xy1)f(x\, | \,y_1)f(xy2)f(x\, | \,y_2) 이 같다는 의미

3.4 독립 확률 변수의 기댓값

독립인 두 확률 변수 X,YX, Y 의 기댓값은 다음 성질을 만족한다.
E[XY]=E[X]E[Y]E[(XμX)(YμX)]=0E[XY] = E[X]E[Y] \\ E[(X - \mu_X)(Y - \mu_X)] = 0

3.5 독립 확률 변수의 분산

독립인 두 확률 변수 X,YX, Y 의 분산은 다음 성질을 만족한다.
Var[X+Y]=Var[X]+Var[Y]Var[X+Y] = Var[X]+ Var[Y]

4. 공분산과 상관계수

두 개 이상의 서로 관련을 가지는 데이터셋, 다변수 확률 변수의 대표값 (자료간의 상관 관계를 나타내는)

4.1 샘플 공분산과 샘플 상관계수

샘플 자료 집합에 대해 정의되는 공분산과 상관계수

샘플 공분산(sample covariance)

자료가 평균값으로부터 얼마나 떨어져 있는지를 나타낸 것
평균값의 위치와 샘플위치를 연결하는 사각형 면적을 사용
자료의 위치에 따라 부호가 달라짐 → 분산과 달리 폭의 크기와 방향을 함께 나타냄
양수: 우상향 / 음수: 우하향
절대값: 선형관계의 정도
계산식
sxy=1Ni=1N(ximx)(yimy)mx,my:x자료와 y자료의 샘플 평균s_{xy} = \frac{1}{N}\sum^N_{i=1}(x_i-m_x)(y_i-m_y) \\ m_x, m_y: \text{x자료와 y자료의 샘플 평균}

샘플 상관계수(sample correlation coefficient)

공분산에서 면적의 의미를 빼내고 방향에 관한 정보만 분리하여 남긴 것
Pearson 상관계수: 공분산을 각각의 샘플 표준편차값으로 나누어 정규화(normalize)
rxy=sxysx2sy2r_{xy} = \frac{s_{xy}}{\sqrt{s^2_x \cdot s^2_y}}

4.2 확률 변수의 공분산과 상관계수

공분산

계산식
Cov[X,Y]=E[(XE(X)(YE(Y))]Cov[X, Y] = E[(X - E(X)(Y-E(Y))]
성질
𝐶𝑜𝑣(𝑋,𝑌)=𝟎,when 𝑋 & 𝑌 are independent𝐶𝑜𝑣(𝑋, 𝑌) = 𝟎 , \text{when 𝑋 \& 𝑌 are independent}
𝐶𝑜𝑣(𝑋,𝑋)=𝑉𝑎𝑟(𝑋)𝐶𝑜𝑣(𝑋, 𝑋) = 𝑉𝑎𝑟(𝑋)
𝐶𝑜𝑣(𝑎+𝑏𝑋,𝑐+𝑑𝑌)=𝑏𝑑𝐶𝑜𝑣(𝑋,𝑌)𝐶𝑜𝑣(𝑎+𝑏𝑋, 𝑐+𝑑𝑌) = 𝑏 * 𝑑 * 𝐶𝑜𝑣(𝑋, 𝑌)
𝑉𝑎𝑟(𝑋+𝑌)=𝑉𝑎𝑟(𝑋)+𝑉𝑎𝑟(𝑌)+𝟐𝐶𝑜𝑣(𝑋,𝑌)𝑉𝑎𝑟(𝑋𝑌)=𝑉𝑎𝑟(𝑋)+𝑉𝑎𝑟(𝑌)𝟐𝐶𝑜𝑣(𝑋,𝑌), when 𝑋 & 𝑌 are not independent𝑉𝑎𝑟(𝑋 + 𝑌) = 𝑉𝑎𝑟(𝑋) + 𝑉𝑎𝑟(𝑌) + 𝟐𝐶𝑜𝑣(𝑋, 𝑌) \\ 𝑉𝑎𝑟(𝑋 - 𝑌) = 𝑉𝑎𝑟(𝑋) + 𝑉𝑎𝑟(𝑌) - 𝟐𝐶𝑜𝑣(𝑋, 𝑌) \\ \text{, when 𝑋 \& 𝑌 are not independent}

상관계수

계산식
ρ[X,Y]=Cov[X,Y]Var[X]Var[Y]\rho[X, Y] = \frac{Cov[X, Y]}{\sqrt{Var[X] \cdot Var[Y]}}
성질
두 확률변수 사이의 선형관계의 강도를 나타냄
단위가 없음
1ρ(𝑋,𝑌)1-1 \leqq \rho(𝑋, 𝑌) \leqq 1
ρ=1\rho=1 : 완전선형 상관관계
ρ=0\rho = 0 : 무상관 (독립과는 다름)
ρ=1\rho = -1 : 완전선형 반상관관계
causality cannot be assumed

4.3 다변수 확률 변수의 샘플 공분산

스칼라가 아닌 벡터 표본값을 가지는 다변수 확률 변수의 공분산
샘플 공분산 행렬(Sample Covariance Matrix)
S=[sx12sx1x2sx1x3sx1xMsx1x2sx22sx2x3sx2xMsx1xNsx2xNsx3xNs2xM]S=\begin{bmatrix} s^2_{x_1} & s_{x_1x_2} & s_{x_1x_3} & \cdots & s_{x_1x_M} \\ s_{x_1x_2} & s^2_{x_2} & s_{x_2x_3} & \cdots & s_{x_2x_M} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ s_{x_1x_N} & s_{x_2x_N} & s_{x_3x_N} & \cdots & s^2{x_M} \end{bmatrix}
실제 계산은 평균을 제거하여 샘플 평균이 0이 된 데이터 행렬 X0X_0 을 활용하여 다음과 같이 함
S=1NX0TX0S=\frac{1}{N}X^T_0X_0
xˉ=1NX0T1NX0=X1MxˉT=X1N1M1NTX\bar{x} = \frac{1}{N}X^T_0 1_N \\ X_0 = X - 1_M\bar{x}^T = X - \frac{1}{N}{1_M 1_N}^T X

4.4 다변수 확률 변수의 공분산

이론적 공분산 행렬 Σ\Sigma
Σ=Cov[X]=E[(XE[X])(XE[X])T]=[σx12σx1x2σx1x3σx1xMσx1x2σx22σx2x3σx2xMσx1xNσx2xNσx3xNσ2xM]\begin{aligned} \Sigma & = Cov[X] \\ & = E[(X-E[X])(X-E[X])^T] \\ & = \begin{bmatrix} \sigma^2_{x_1} & \sigma_{x_1x_2} & \sigma_{x_1x_3} & \cdots & \sigma_{x_1x_M} \\ \sigma_{x_1x_2} & \sigma^2_{x_2} & \sigma_{x_2x_3} & \cdots & \sigma_{x_2x_M} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \sigma_{x_1x_N} & \sigma_{x_2x_N} & \sigma_{x_3x_N} & \cdots & \sigma^2{x_M} \end{bmatrix} \end{aligned}
이 식에서 확률 변수 XX, 그 기댓값 E[X]E[X] 는 다변수, 즉 벡터임에 주의
참고 자료
패스트캠퍼스 '데이터 사이언스 스쿨 Python 8기' 수업자료