목차
1. 다변수 이산확률변수의 결합/조건부확률
다변수 이산확률변수
•
카테고리값을 가질 수 있는 두 개 이상의 확률분포에서, 이 확률분포 쌍이 가지는 복합적인 확률분포
•
확률 변수 의 각각의 확률적 특성을 확률질량함수(pmf) 로 나타낼 수 있음
결합 확률질량함수(joint probability mass function)
•
두 확률분포에서 특정한 숫자 쌍이 나타나는 확률
•
e.g. 은 이라는 특정한 숫자 쌍으로만 이루어진 사건의 확률
주변 확률질량함수(marginal probability mass function)
•
각각의 확률질량함수. 두 확률변수 중 하나의 확률변수 값에 대해서만 확률분포를 표시한 함수
→ 다변수가 되기 이전의 단변수 확률질량함수
•
전체 확률의 법칙(total law)에 의해 다른 변수가 가질 수 있는 모든 값의 결합확률질량함수를 합한 확률
조건부 확률질량함수(conditional probability mass funcion)
•
다변수 확률변수 중 하나의 값이 특정 값으로 고정되어 상수가 된 경우, 나머지 변수에 대한 확률질량함수
•
결합질량함수 에서 값이 고정된 함수, 즉 결합질량함수의 단면과 같음
2. 다변수 연속확률변수의 결합/조건부확률
이산확률분포처럼 atom 이벤트를 이용한 확률 정의가 불가능하므로 단변수 연속확률변수처럼 누적확률분포함수를 정의한 후 이를 미분하여 확률밀도함수를 정의하는 방법을 사용
결합 누적확률분포함수 & 결합 확률밀도함수
•
결합 누적확률분포함수
•
주변 누적확률분포(marginal cumulative probability distribution)
◦
두 독립변수 중 하나가 무한대값을 가지는 경우 남은 하나에 대한 누적확률분포함수로 줄어듦
•
결합 확률밀도함수(joint probability density function)
◦
누적확률분포함수를 미분하여 정의 (독립 변수 2개에 각각에 대해 모두 편미분)
→ 2차원 함수
◦
결합 확률밀도함수를 특정 구간에 대해 적분하면 해당 구간에 대한 확률이 됨
▪
결합 확률밀도함수를 모든 변수에 대해 에서 까지 적분하면 값이 1이 됨
주변 확률밀도함수(marginal probability density function)
•
결합 확률밀도함수를 특정한 하나의 변수에 대해 가중평균한 값
= 결합 확률밀도함수를 하나의 확률변수에 대해서만 적분 → 1차원 함수
결합 확률밀도함수(joint pdf)와 주변 확률밀도함수(marginal pdf)의 예시
조건부 확률밀도함수(conditional probability density function)
•
다변수 확률 변수 중 하나의 값이 특정 값이라는 사실이 알려진 경우, 이러한 조건(가정)에 의해 변화한 나머지 확률변수에 대한 확률밀도함수
•
이 때 조건이 되는 확률변수의 값은 특정한 값으로 고정되어 있으므로 변수가 아니라 모수
◦
e.g. 에서 의 값은 고정되어 있으므로 이 값은 의 함수가 됨
3. 확률 밀도 함수의 독립
3.1 상관과 독립
•
상관(correlation): 두 확률 변수가 있을 때, 한 확률 변수의 값이 달라지면 다른 확률변수의 조건부 분포가 달라지는 것을 서로 상관관계가 있다고 함
◦
결합 확률 분포에서 한 확률변수를 고정했을 때 생기는 함수나 분포 단면의 모양(profile)이 달라지는 것
•
독립(independent) : 상관 관계가 아님. 두 확률 변수 의 결합 확률 밀도 함수(joint pdf)가 주변 확률 밀도 함수(marginal pdf)의 곱으로 나타나면 두 확률 변수는 서로 독립
◦
예시
선실 class | 남 | 여 |
1 | 2 | 4 |
2 | 4 | 8 |
3 | 6 | 12 |
→ 성별 or class 어느 쪽으로 봐도 독립
•
남/녀 여부에 따라 class 분포가 달라지지 않음
•
class 등급에 따라 남녀 분포가 달라지지 않음
다양한 joint pdf 형태와 독립 여부 (기울어진 형태는 독립이 아니다!)
3.2 반복 시행
•
독립의 대표 사례
•
같은 확률 변수에서 여러 개의 표본 데이터를 취하는 경우 → 독립인 두 개의 확률 변수에서 나온 표본으로 볼 수 있음
•
확률 밀도 함수가 이고, 표본 데이터가 이면,
벡터 가 나올 확률은 다음과 같음
3.3 조건부 확률분포
•
독립인 두 확률 변수 의 조건부 확률 밀도 함수는 주변 확률 밀도함수와 같음
•
즉, 확률 변수 가 확률 변수 에 독립이면, 조건이 되는 확률 변수의 값에 조건부 확률분포가 영향을 받지 않음. 즉 값과 상관없이 조건부 확률 분포 과 이 같다는 의미
3.4 독립 확률 변수의 기댓값
•
독립인 두 확률 변수 의 기댓값은 다음 성질을 만족한다.
3.5 독립 확률 변수의 분산
•
독립인 두 확률 변수 의 분산은 다음 성질을 만족한다.
4. 공분산과 상관계수
두 개 이상의 서로 관련을 가지는 데이터셋, 다변수 확률 변수의 대표값 (자료간의 상관 관계를 나타내는)
4.1 샘플 공분산과 샘플 상관계수
샘플 자료 집합에 대해 정의되는 공분산과 상관계수
샘플 공분산(sample covariance)
•
자료가 평균값으로부터 얼마나 떨어져 있는지를 나타낸 것
•
평균값의 위치와 샘플위치를 연결하는 사각형 면적을 사용
•
자료의 위치에 따라 부호가 달라짐 → 분산과 달리 폭의 크기와 방향을 함께 나타냄
◦
양수: 우상향 / 음수: 우하향
◦
절대값: 선형관계의 정도
•
계산식
샘플 상관계수(sample correlation coefficient)
•
공분산에서 면적의 의미를 빼내고 방향에 관한 정보만 분리하여 남긴 것
•
Pearson 상관계수: 공분산을 각각의 샘플 표준편차값으로 나누어 정규화(normalize)
4.2 확률 변수의 공분산과 상관계수
공분산
•
계산식
•
성질
◦
◦
◦
◦
상관계수
•
계산식
•
성질
◦
두 확률변수 사이의 선형관계의 강도를 나타냄
◦
단위가 없음
◦
▪
: 완전선형 상관관계
▪
: 무상관 (독립과는 다름)
▪
: 완전선형 반상관관계
◦
causality cannot be assumed
4.3 다변수 확률 변수의 샘플 공분산
•
스칼라가 아닌 벡터 표본값을 가지는 다변수 확률 변수의 공분산
•
샘플 공분산 행렬(Sample Covariance Matrix)
◦
실제 계산은 평균을 제거하여 샘플 평균이 0이 된 데이터 행렬 을 활용하여 다음과 같이 함
4.4 다변수 확률 변수의 공분산
•
이론적 공분산 행렬
◦
이 식에서 확률 변수 , 그 기댓값 는 다변수, 즉 벡터임에 주의
참고 자료
•
패스트캠퍼스 '데이터 사이언스 스쿨 Python 8기' 수업자료