Search
🎲

확률통계 2-1. 확률

Created at
2019/10/27
Updated at
2021/01/25
Tags
Keywords
기초 확률
3 more properties
목차

1. 확률의 필요성

표본을 바탕으로 얻은 모집단 전체에 대한 결론이 얼마나 믿을만 한가?
모집단에서 표본을 추출할 때 어떤 특정한 성질을 만족하는 표본이 관측될 가능성에 대한 측도로, 표본을 바탕으로 모집단에 대한 결론을 이끌어내는 데에 논리적 근거가 됨

2. 확률 관련 중요 개념

확률은 우리가 현실에서 해결하고자 하는 문제와 결부하여 정의한다. (e.g. 동전을 한 번 던졌을 때 앞면이 나올것인가 뒷면이 나올 것인가?, 과일가게에서 손님이 과일을 하나 샀을 때 그 과일은 어떤 과일일까?) 확률론은 이러한 문제가 어떤 답을 가질 수 있고, 그 답의 신뢰성은 얼마인지 계산하는 정량적인 방법을 제시한다.
확률을 정확히 정의하려면 3가지 개념 확률표본, 표본 공간, 사건 을 알아야 한다.
확률표본 or 표본(sample)
풀고자하는 확률적 문제에서 발생(realize)할 수 있는 하나의 현상, 혹은 선택(sampled)될 수 있는 하나의 경우 혹은 숫자
e.g. 동전을 한 번 던지는 문제의 표본은 앞면(H) 또는 뒷면(T)
"표본이 선택(sampled)되다", "표본이 발생(realized)하다"
표본공간(sample space): S,ΩS, \Omega
통계적 조사에서 얻을 수 있는 모든 가능한 결과들의 전체집합
답이 될 수 있는 혹은 선택될 수 있는 모든 표본의 집합
e.g. 동전을 한 번 던지는 문제의 표본공간은 Ω={H,T}\Omega=\{H, T\}
표본공간을 정의한다는 것은 어떤 경우(현상)가 가능하고 어떤 경우(현상)가 가능하지 않은지 정의하는 작업
표본공간을 정할 때는 아직 '확률'은 고려하지 않고(얼마나 흔한/드문 케이스인지) 단지 가능하다/불가능하다를 정하고 가는 것
문제를 푸는 데 있어 표본공간을 정하고 가야함 - 도메인 지식과 관련된 부분
사건(event): 𝐴,𝐵,𝐴, 𝐵, ⋯
표본공간의 부분집합, 즉 전체 표본공간 중에서 우리가 관심을 가지고 있는 일부 표본의 집합 ( AS)A \subset S)
e.g. 동전 표본 공간에서 가능한 사건(부분집합)은 다음의 네 가지이다.
A={}=A = \{\} = \emptyset
B={H}B=\{H\}
C={T}C=\{T\}
D={H,T}=ΩD=\{H,T\} = \Omega (동전의 앞면이 나오거나 뒷면이 나오는 경우)
사건 𝐴𝐴가 일어나다: 사건 𝐴𝐴의 한 원소가 결과로 관측되다
근원사건(elementary event) or 단순사건(simple event): 𝑛(𝐴)=1𝑛(𝐴) = 1
표본을 1개만 가지는 사건
사건의 연산
합사건: ABA \cup B
곱사건: ABA \cap B
여사건: ACA^C
배반(mutually disjoint)사건: AB=A \cap B = \empty

3. 확률(probability)의 수학적 정의

3.1 확률의 정의

확률(probability): 사건(부분집합)을 입력하면 숫자(확률값)가 출력되는 함수
확률의 정의역은 표본 공간의 모든 사건(부분집합)의 집합이다.
사건(부분집합) → 숫자
즉, 모든 각각의 사건(부분집합)에 어떤 숫자를 할당한 것이 확률로, 𝑃𝑃는 함수, 𝑃(𝐴)𝑃(𝐴)𝐴𝐴라는 사건에 할당된 숫자를 의미

3.2 콜모고로프의 공리(Kolmogorov's axioms)

콜고로프의 공리 (Kolmogorov: 1903~1987)
확률은 다음과 같은 세 가지 규칙을 지켜야 한다.
1.
모든 사건에 대해 확률은 실수이고 0 또는 양수이다.
𝑃(𝐴)0𝑃(𝐴) ≥ 0
2.
표본공간이라는 사건에 대한 확률은 1이다.
𝑃(Ω)=1𝑃(\Omega) = 1
3.
공통원소가 없는(서로 배반인, disjoint) 두 사건의 합집합의 확률은 각 사건의 확률의 합이다.
𝐴𝐵=𝑃(𝐴𝐵)=𝑃(𝐴)+𝑃(𝐵)𝐴 ∩ 𝐵 = ∅ → 𝑃(𝐴∪𝐵) = 𝑃(𝐴) + 𝑃(𝐵)
[참고] 고전적 정의(Laplace: 1749~1827)
0<𝑛(𝑆)<0 < 𝑛(𝑆) < ∞ 이고 각각의 근원사건이 일어날 가능성이 같을 때,
임의의 사건 𝐴𝐴의 확률은 𝑃(𝐴)=𝑛(𝐴)𝑛(𝑆)𝑃(𝐴) = \dfrac{𝑛(𝐴)}{𝑛(𝑆)}
콜모고로프의 정리를 사용하면 어떤 사건의 확률값을 이용하여 다른 사건의 확률값을 계산할 수 있다.
단순사건(표본이 1개인 사건)은 교집합을 가지지 않으므로, 유한개의 사건만 있는 경우, 모든 단순사건의 확률값을 알면 콜모고로프의 세번째 공리에 의해 다른 모든 사건의 확률값을 계산할 수 있다.
e.g. 트럼프카드 무늬의 단순사건과 확률이 𝑃(♦︎)=0.1,𝑃(♥︎)=0.2,𝑃()=0.3,𝑃()=0.4𝑃({♦︎}) = 0.1, 𝑃({♥︎}) = 0.2, 𝑃({♠︎}) = 0.3, 𝑃({♣︎}) = 0.4 라면 𝑃(♥︎,)=0.2+0.3=0.5𝑃({♥︎, ♠︎}) = 0.2 + 0.3 = 0.5 라고 계산할 수 있음

3.3 확률은 사건 을 입력으로 가지는 함수

확률은 표본이 아닌 사건을 입력으로 가지는 함수임에 주의!
확률이 "표본 하나 하나에 대해 정의되어 있는 숫자"라는 것은 흔한 오해
주사위를 던져 1이 나올 확률은 𝑃(1)=1/6𝑃(1) = 1/6 이 아니라 𝑃({1})=1/6𝑃(\{1\}) = 1/6 로 나타내는 것이 올바르다
𝑃(1)=1/6𝑃(1) = 1/6𝑃𝑃는 확률이 아니라 확률질량함수여야 함
확률질량함수(probability mass function)
표본이 숫자인 경우(확률 변수의 경우), 사건 대신 숫자(표본)을 입력으로 가지고 확률값을 출력으로 가지는 함수 𝑃 를 정의할 수 있는데 이를 확률질량함수라고 함 (확률 ≠ 확률질량함수)
확률의 입력이 표본이 아닌 사건인 이유는 표본의 수가 무한한 경우를 다루기 위함
표본의 수가 무한하고, 모든 표본에 대해 단일사건의 확률이 동일하다면 표본 하나에 대한 사건의 확률은 0이다 (e.g. 시계의 시침이 12시를 기준으로 이루는 각도가 30도일 확률은 0이다)
사건에는 확률을 할당할 수 있음 (e.g. 시침이 0도에서 30도 사이에 있을 확률은 1/12이다)
단, 원소의 수가 무한대인 표본집합은 사건의 수도 무한대이므로 확률을 할당하거나 설명하기 어려운데, 이 경우에는 확률밀도함수(probability density function) 을 사용

3.4 주사위 한 면이 나올 정말 확률은 1/6인가?

확률을 정의할 때 표본의 갯수가 유한하고, 각 사건에 대해 원소의 갯수 이외의 아무런 정보가 없다면 각 사건의 확률을 다음과 같다고 보는 것이 타당함
P(A)=card(A)card(Ω)P(A) = \frac{card(A)}{card(\Omega)}
주사위의 한 면이 나올 확률이 1/6이라고 생각하는 이유는 다음을 가정하고 있기 때문
주사위가 공정한 주사위이다. 혹은 공정하지 않다고 생각할 수 있는 증거가 아직 없다.
위의 가정이 없는 경우라면 1/n이 아닌 값이라도 전체 사건의 확률들이 콜모고로프 공리를 만족하면 됨
다른 곳에서 얻은 정보(e.g. 도메인지식)나 표본에 대한 데이터가 존재하는 경우에는 보다 믿을 수 있는 확률값을 계산할 수 있다.

4. 확률의 의미

4.1 빈도주의(Frequentist) 관점에서 확률의 의미

빈도주의 관점의 확률: 반복적으로 선택된 표본이 사건(부분 집합) A의 원소가 될 경향(propensity)
예를 들어, 동전의 앞면이 나올 확률값이 0.5라는 것은 동전을 반복하여 10000번을 던졌을 경우 5000번 앞면이 나오는 경향을 가진다는 의미

4.2 베이지안(Baysian) 관점에서 확률의 의미

논리학의 관점, 반복의 개념이 없음
베이지안 관점은 이미 발생한 사건의 진실에 대해 알고자 하는 노력
베이지안 관점의 확률
이미 발생한 일이 특정한 사건에 속할 가능성
"이미 발생한 일이 특정한 사건에 속한다"는 가설(hypothesis), 명제(proposition), 혹은 주장(assertion)의 신뢰도 (사건 = 주장)
cf. 빈도주의 관점의 확률: "미래에 특정한 사건에 속하는 일이 발생할 가능성"
베이지안 관점에서 사건(부분 집합)의 의미
"발생한 표본(답)이 포함되어 있을 가능성이 있는 후보의 집합"
"이 사건에 속한 후보 집합 안에 발생한 표본(답)이 있다"는 명제 혹은 주장
사건의 확률은 "발생한 표본(답)이 그 후보 집합에 있을 가능성", "어떤 사건이 진실일 가능성", "이 사건에 속한 후보 집합 안에 발생한 표본(답)이 있다"는 명제 혹은 주장의 신뢰도
사건의 발생
사건이 일어났다 혹은 발생했다(occur) = 그 사건(부분 집합) 즉 후보군 안에 정말로 선택된 표본이 있음을 알게 되었다, 해당 사건이 말하고 있는 주장이 사실임을 알게되었다
추가적인 정보가 들어왔음을 뜻함

5. 확률의 성질

확률의 정의로부터 유도된 확률의 성질

성질 1. 공집합의 확률

공집합인 사건의 확률은 0이다
콜모고로프 공리에서 유도된 성질
증명
확률의 정의로부터 사건 𝐴𝐴와 사건 𝐵𝐵가 공통원소가 없다면 𝑃(𝐴𝐵)=𝑃(𝐴)+𝑃(𝐵)𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵)가 된다.
𝐵=𝐵 = ∅ 인 경우 𝐴𝐴𝐵𝐵의 공통원소는 없으며 𝐴=𝐴𝐴 ∪ ∅ = 𝐴 라는 사실을 이용하면,
𝑃(𝐴)=𝑃(𝐴)=𝑃(𝐴)+𝑃()𝑃()=0𝑃(𝐴 ∪ ∅) = 𝑃(𝐴) = 𝑃(𝐴) + 𝑃(∅) \\ ∴ 𝑃(∅) = 0

성질 2. 여집합의 확률

어떤 사건의 여집합인 사건의 확률은 (1- 원래사건의 확률)과 같다.
P(AC)=1P(A)P(A^C) = 1 - P(A)
증명
확률의 정의로부터 사건 𝐴와 사건 𝐵가 공통원소가 없다면 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵)가 된다.
𝐵가 𝐴의 여집합일 경우 𝐴와 𝐵의 공통원소는 없다.
P(AAC)=P(Ω)=1=P(A)+P(AC)P(AC)=1P(A)P(A \cup A^C) = P(\Omega)=1=P(A) + P(A^C) \\ \therefore P(A^C) = 1 - P(A)

성질 3. 포함-배제 원리

두 사건의 합집합의 확률은 각 사건의 확률의 합에서 두 사건의 교집합의 확률을 뺀 것과 같다.
P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B)

성질 4. 전체 확률의 법칙 (Total Law)

복수의 사건 CiC_i 가 다음 두 가지 조건을 만족하는 사건들인 경우,
1) 서로 교집합이 없음:     CiCj=      (i=)2) 모두 합쳤을 때 (합집합) 전체 표본 공간임:     C1C2=Ω\text{1) 서로 교집합이 없음: } \;\;C_i \cap C_j = \emptyset \;\;\; (i =\not j) \\ \text{2) 모두 합쳤을 때 (합집합) 전체 표본 공간임: } \;\; C_1 \cup C_2 \cup \cdots = \Omega
모든 사건 𝐴에 대해 다음 등식이 성립한다. 즉, 사건 𝐴의 확률은 사건 𝐴𝐴와 사건 CiC_i 가 동시에 발생할 사건들의 확률의 합과 같다.
P(A)=iP(ACi)P(A) = \sum_i P(A \cap C_i)
e.g. 한 초등학교에서 1학년 남학생일 사건의 확률과, 2학년 남학생일 사건의 확률, ... 6학년 남학생일 사건의 확률을 모두 합치면 남학생이라는 사건의 확률이 된다.

6. 결합 확률과 조건부 확률

결합 확률(joint probability): 사건 𝐴𝐴𝐵𝐵동시에 발생할 확률 (사건 𝐴𝐴𝐵𝐵의 교집합의 확률을 계산하는 것과 같음)
𝑃(𝐴𝐵)𝑃(𝐴 ∩ 𝐵) 혹은 𝑃(𝐴,𝐵)𝑃(𝐴, 𝐵)
주변 확률(marginal probability): 결합되지 않는 개별 사건 𝐴𝐴, 사건 𝐵𝐵의 확률 P(𝐴),𝑃(𝐵)P(𝐴), 𝑃(𝐵)
조건부확률(conditional probability): 사건 𝐴가 사실일 때, 사건 𝐵에 대한 확률, 사건 𝐴에 대한 사건 𝐵의 조건부 확률
P(BA)=P(AB)P(A),,P(A)>0P(B|A) = \frac{P(A \cap B)}{P(A)}, \quad {단,} \,\,\, P(A) > 0
조건부 확률 정의의 근거
1.
사건 𝐴𝐴가 사실이므로 모든 가능한 표본은 사건 𝐴𝐴에 포함되어야 한다. 즉, 표본 공간 Ω𝐴\Omega → 𝐴 가 된다.
2.
사건 𝐵𝐵의 원소는 모두 사건 𝐴의 원소도 되므로 사실상 사건 𝐴𝐵𝐴 ∩ 𝐵의 원소가 된다. 즉, 𝐵𝐴𝐵𝐵 → 𝐴 ∩ 𝐵 가 된다.
3.
따라서 사건 𝐵𝐵의 확률 즉, 신뢰도는 원래의 신뢰도(결합 확률)를 새로운 표본 공간의 신뢰도(확률)로 정규화(normalize)한 값이라고 할 수 있다.
조건부 확률의 의미
표본이 이벤트 𝐴𝐴에 속한다는 새로운 사실을 알게 되었을 때, 이 표본이 사건 𝐵𝐵에 속한다는 사실의 정확성(신뢰도)이 어떻게 변하는지를 알려줌
조건부확률 𝑃(𝐴𝐵)𝑃(𝐴|𝐵)에서 사건(주장,명제) 𝐵,𝐴𝐵, 𝐴는 각각 "가정과 그 가정에 따른 조건부 결론", "원인과 결과", "근거와 추론"으로 생각할 수 있다.
또한 조건부 확률의 정의를 바꿔 쓰면 𝑃(𝐴𝐵)=𝑃(𝐴𝐵)𝑃(𝐵)𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵)𝑃(𝐵) 이 되는데, 이는 다음과 같이 볼 수 있다.
A,BA, B가 모두 발생할 확률은 BB사건이 발생할 확률과 그 사건이 발생한 경우 다시 A A가 발생할 확률의 곱
독립(independence): 상관 관계가 없다
사건 𝐴의 발생이 사건 𝐵의 발생에 전혀 영향을 미치지 않을 때, 사건 𝐴, 𝐵는 독립
𝑃(𝐴)>0𝑃(𝐴) > 0 이고 𝑃(𝐵)>0𝑃(𝐵) > 0 일 때, 𝑃(𝐴𝐵)=𝑃(𝐴)𝑃(𝐴|𝐵) = 𝑃(𝐴) 또는 𝑃(𝐵𝐴)=𝑃(𝐵)𝑃(𝐵|𝐴) = 𝑃(𝐵)
𝑃(𝐴𝐵)=𝑃(𝐴)𝑃(𝐵)𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵)
독립인 경우 조건부 확률과 원래의 확률이 같아짐. 즉, 𝐵라는 사건이 발생하든 말든 사건 𝐴에는 전혀 영향을 주지 않음
P(AB)=P(AB)P(B)=P(A)P(B)P(B)=P(A)P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{P(A)P(B)}{P(B)} = P(A)

7. 베이즈 정리

7.1 베이즈 정리

베이즈 정리: 사건 𝐵가 발생함으로써(진실임을 알게 됨으로써, 𝑃(𝐵)=1임을 알게 됨으로써) 사건 𝐴의 확률이 어떻게 변화하는 지를 표현한 정리
사건 𝐵가 발생했다는 것은 우리가 찾는 샘플이 사건 𝐵라는 부분집합에 포함되어 있다는 새로운 정보를 취득했다는 의미
따라서 베이즈 정리는 새로운 정보가 기존의 의사결정에 어떻게 영향을 미치는지를 설명함
수식
𝑃(𝐴)𝑃(𝐴): 사전 확률(prior), 사건 𝐵가 발생하기 전에 가지고 있던 사건 𝐴의 확률
𝑃(𝐴𝐵)𝑃(𝐴|𝐵): 사후 확률(posterior), 사건 𝐵가 발생한 후 갱신된 사건 𝐴의 확률
𝑃(𝐵𝐴)𝑃(𝐵|𝐴): likelihood, 사건 𝐴가 발생한 경우 사건 𝐵의 확률
𝑃(𝐵)𝑃(𝐵): 정규화 상수(normalizing constant), 확률의 크기 조정

7.2 베이즈 정리의 확장 1

만약 사건 𝐴i𝐴_i가 다음의 두 가지 조건을 만족하는 경우,
1) 서로 교집합이 없음:     AiAj=      (i=)2) 모두 합쳤을 때 (합집합) 전체 표본 공간임:     A1A2=Ω\text{1) 서로 교집합이 없음: } \;\;A_i \cap A_j = \emptyset \;\;\; (i =\not j) \\ \text{2) 모두 합쳤을 때 (합집합) 전체 표본 공간임: } \;\; A_1 \cup A_2 \cup \cdots = \Omega
전체 확률의 법칙(Total Law)을 이용하여 다음과 같이 베이즈 정리를 확장할 수 있다.
P(A1B)=P(BA1)P(A1)P(B)=P(BA1)P(A1)iP(Ai,b)=P(BA1)P(A1)iP(BAi)P(Ai)P(A_1|B) = \frac{P(B|A_1)P(A_1)}{P(B)} = \frac{P(B|A_1)P(A_1)}{\sum_{i}P(A_i, b)} = \frac{P(B|A_1)P(A_1)}{\sum_{i}P(B|A_i)P(A_i)}
검사 시약 문제
문제
제약사에서 환자가 특정 병에 걸렸는지 확인할 수 있는 시약을 만들었다. 그 병에 걸린 환자에게 시약을 테스트한 결과 99%의 확률로 양성반응을 보였다. 병에 걸리지 확인이되지 않은 어떤 환자가 이 시약을 테스트한 결과 양성반응을 보였다면 이 환자가 그 병에 걸려있을 확률은 얼마일까?
정리
병에 걸리는 경우: 사건 DD
양성반응을 보이는 경우: 사건 SS
병에 걸린 사람이 양성 반응을 보이는 경우: 사건 SDS|D
양성반응을 보인 사람이 병에 걸려 있을 경우: 사건 DSD|S
P(SD)=0.99P(S|D) = 0.99가 주어졌을 때, P(DS)P(D|S) 를 구하라
풀이
아래의 베이즈 정리에서 P(D)P(D)P(S)P(S)를 모르기 때문에 P(DS)P(D|S)가 0.99인지 알 수 없음
P(DS)=P(SD)P(D)P(S)P(D|S) = \frac{P(S|D)P(D)}{P(S)}
추가정보 & 베이즈정리 확장 적용
추가정보
이 병은 걸릴 확률이 0.2%인 희귀병이다: P(D)=0.002P(D) = 0.002
이 병에 걸리지 않은 사람에게 양성반응이 나올 확률, 즉 잘못된 결과(False Positive, 위양성)가 나타날 확률이 5%이다: P(SDc)=0.05P(S|D^c) = 0.05
False positive가 0에 가까울 수록 좋은 시약이다.
제대로 된 시약 → P(SD)1 & P(SDc)0P(S|D) ≅ 1 \text{ \& } P(S|D^c) ≅ 0
베이즈 정리의 확장을 사용한 풀이
→ 이 시약에서 양성결과를 받은 사람이 실제 병에 걸렸을 확률은 3.8%에 불과하다

7.3 베이즈 정리의 확장 2

베이즈 정리는 사건 A의 확률이 사건 B에 의해 갱신된 확률을 계산한다. 그런데 이 상태에서 또 추가적인 사건 C가 발생했다면 베이즈 정리는 다음과 같이 쓸 수 있다.
P(AB,C)=P(CA,B)P(AB)P(CB)P(A|B,C) = \frac{P(C|A,B)P(A|B)}{P(C|B)}
P(A|B, C): B와 C가 조건인 A의 확률, 즉 P(A|(B⋂C))
이 공식을 A와 C만 있는 경우와 비교해보면 외우기 쉬움
P(AC)=P(CA)P(A)P(C)P(A|C) = \frac{P(C|A)P(A)}{P(C)}
증명

7.4 사슬 법칙(chain rule)

7.5 베이즈 정리와 분류 문제

베이즈 정리는 머신러닝 중 분류(classification) 문제를 해결하는 데 사용될 수 있음
분류: 입력자료 X의 값으로부터 출력자료 Y의 값을 예측(prediction)하는 문제
예시: 과일 선택 문제
사과와 오렌지를 파는 과일 가게 A는 Red 농장과 Blue 농장에서 과일을 공급 받는다. 어느 날, Red 농장에서는 사과 2개, 오렌지 6개를 공급하고 Blue 농장에서는 사과 3개, 오렌지 1개를 공급했다. 어떤 손님이 오렌지 하나를 선택했을 때(X=오렌지), 이 오렌지는 Red 농장에서 온 것(Y=Red)일까 Blue 농장에서 온 것(Y=Blue)일까?
확률론의 용어로 문제를 다시 정리하면
손님이 선택한 과일이 사과인 사건: X = A
손님이 선택한 과일이 오렌지인 사건: X = O
손님이 선택한 과일이 Red 농장 것인 사건: Y = R
손님이 선택한 과일이 Blue 농장 것인 사건: Y =B
→ 문제: P(R=R | X=O)
풀이
P(Y=R) = 8/12
P(X=O | Y=R) = 6 / 8
P(R=B | X=O) = 1 - P(R=R | X=O) = 1/7
따라서 예측 결과는 Red 농장이다
이러한 방식으로 분류 문제를 풀기 위해서는 각각의 출력 카테고리 Y에 대한 특징값 X의 분포, 즉 likelihood를 알고 있어야 함
이렇게 베이즈 정리와 likelihood를 이용하여 각각의 Y값에 대한 확률 값을 모두 구한 다음, 가장 확률 값이 높은 Y값을 선택하여 분류 문제를 푸는 방법을 생성론적 방법(generative method)라고 함
참고 자료
패스트캠퍼스 '데이터 사이언스 스쿨 Python 8기' 수업자료