목차
1. 베르누이 분포(Bernoulli distribution)
1.1 주요 개념
•
베르누이 시도/실행(Bernoulli trial): 결과가 오직 성공(), 실패() 두 가지 뿐인 실험
◦
표본공간:
◦
확률:
•
베르누이 확률변수(Bernoulli random variable)
◦
표본공간 에서 정의된, 인 확률변수
◦
를 으로 놓는 이유 (장점)
▪
pmf를 간결하게 쓸 수 있음
▪
= 샘플평균
•
베르누이 분포(Bernoulli distribution): 베르누이 확률변수의 확률분포
◦
베르누이 확률 변수의 확률 질량 함수
◦
이원적 모집단의 분포를 나타냄
◦
표기: 확률 변수 𝑋가 베르누이 분포를 따른다
1.2 베르누이 분포의 모멘트
•
기댓값:
•
분산:
•
증명
1.3 베르누이 분포의 모수 추정
•
베르누이 분포 모수 𝜽를 추정한 값은 다음과 같이 계산함
1.4 베르누이 분포의 활용
•
베르누이 분포는 다음과 같은 경우 사용될 수 있음
1.
분류 예측 문제의 출력 데이터가 두 개의 값으로 구분되는 카테고리 값인 경우, 두 값 중 어느 값이 가능성이 높은지 표현
2.
입력 데이터가 0 또는 1, 참 또는 거짓 등 두 개의 값으로 구분되는 카테고리 값인 경우, 두 종류의 값이 나타나는 비율을 표현
2. 이항 분포(Binomial distribution)
2.1 주요 개념
•
정의: 성공 확률이 인 베르누이 시행을 번 독립적으로 반복할 때의 성공횟수인 확률 변수 의 분포
•
표기
•
확률질량함수
2.2 이항 분포의 모멘트
•
기댓값
•
분산
3. 카테고리 분포
3.1 주요 개념
•
카테고리 분포는 베르누이 분포(2개 값)의 확장판으로, 1부터 까지의 개의 정수 값 중 하나가 나오는 확률 변수의 분포
◦
예: 주사위를 던져 나오는 눈금의 수를 확률 변수라고 한다면,
이 확률 변수는 값이 나오는 인 카테고리 분포
•
보통 다음과 같이 One-Hot-Encoding(1과 0으로만 이루어진 다차원 벡터 형태로 인코딩)한 값을 출력하는 벡터 확률 변수로 사용
→ 출력되는 확률 변수의 값 𝑥가 다음과 같이 벡터 값이 됨
•
표기
•
확률질량함수
◦
간략한 표현
3.2 카테고리 분포의 모멘트
베르누이 분포 ⇒ vector
•
기댓값
•
분산
4. 다항 분포 (Multinomial distribution)
4.1 주요 개념
•
다항 분포
◦
카테고리 분포를 여러번 시도하여 얻은 각 원소의 성공횟수 값의 분포
◦
카테고리가 개인 카테고리 확률변수의 표본 데이터를 개 얻었을 때, 각각의 카테고리 가 각각 번 나올 확률분포 즉, 표본값이 벡터 가 되는 확률분포
◦
예: 은 6개의 숫자가 나올 수 있는 주사위를 10번 던져서 1인 면이 1번, 2인 면이 2번, 3인 면이 1번, 4인 면이 2번, 5인 면이 3 번, 6인 면이 1번 나왔다는 의미
•
이산 확률 분포 사이의 관계
•
확률 질량 함수
4.2 다항 분포의 모멘트
이항 분포 ⇒ vector
•
기댓값
•
분산
5. 포아송 분포(Poisson distribution)
•
정의: 일정시간 또는 일정공간 안에서 매우 드물게 일어나는 사건의 수를 나타내는 분포
•
표기:
•
확률 변수 number of success per unit
•
확률 밀도 함수
◦
: expected number of success per unit
•
성질:
•
일반적으로 포아송 분포를 적용하기 위해서는 다음의 세 가지 조건을 만족해야 함
1.
서로 겹치지 않는 시간이나 공간 안에서 일어나는 사건의 횟수는 서로 독립
2.
짧은 시간이나 작은 공간에서 둘 또는 그 이상의 사건이 일어날 확률은 0이라 가정
3.
단위시간이나 단위공간에서의 사건의 평균출현횟수는 일정하고 이는 시간이나 공간에 따라 변하지 않음
6. 이항분포, 포아송분포, 정규분포 사이의 관계
•
이항분포 - 정규 분포
•
이항분포 - 포아송 분포
•
포아송 분포 - 정규 분포