Search
🎲

확률통계 1-2. 기술통계

Created at
2019/09/15
Updated at
2021/01/25
Tags
Keywords
통계 기초
3 more properties
목차

1. 자료의 요약

표(table)와 그래프(graph)를 이용한 기술 통계

1.1 이산자료

도수: 각 범주에 속하는 관측값의 개수
도수분포표(frequency table): 서로 다른 특성값에 대한 도수(frequency)나 상대도수(relative frequency)를 구하여 특성값과 함께 나열한 표
도수분포표, 상대도수분포표, 누적도수분포표
막대그래프(bar graph): 수평축에 서로 다른 특성값을 배열하고, 막대 높이가 상대도수나 도수에 비례하도록 막대를 그린 그래프
원형그래프(pie graph): 부채꼴의 중심각의 크기나 넓이가 상대도수에 비례하도록 그린 그래프

1.2 연속자료

도수분포표: 전체 표본자료의 범위를 몇 개의 적당한 계급으로 나누고, 각 계급의 도수나 상대도수를 구하여 계급과 함께 나열한 표
히스토그램(histogram): 수평축에 계급구간을 표시하고, 그 위에 직사각형의 넓이가 상대도수에 비례하도록 직사각형을 그린 그림
도수다각형(frequency polygon): 히스토그램에서 각 계급구간 막대 상단의 중앙점을 직선으로 연결하여 그린 것
자료의 분포상태를 히스토그램보다 쉽게 파악할 수 있고, 하나의 좌표에 여러 개의 도수다각형을 그릴 수 있어 여러 개의 자료를 비교할 때 사용
줄기-잎 그림(stem-and-leaf display)
작성요령: 줄기 → 잎 배열 → 잎을 크기 순서대로 나열
히스토그램을 90° 회전한 모양
잎의 폭은 임의로 정할 수 있으나 일정해야 함 (히스토그램의 밑변의 길이는 일정하지 않아도 됨)
히스토그램과 달리 자료값을 그대로 갖고 있어 정보의 손실이 거의 없음
자료의 형태 파악이 쉽고, 이상점 자료에 대한 정보를 제공
자료의 개수가 많은 경우에는 그리기 어려움
분포의 모양
대칭(symmetry)
치우침(skewness)
봉우리의 개수(number of mode)
종형(bell-shaped)

1.3 이차원 자료의 요약 (두 변수 자료의 요약)

nn개의 표본이 있을 경우. 다음과 같은 형태: (x1,y1),(x2,y2),,(xn,yn)(x_1,y_1 ),(x_2,y_2 ),⋯,(x_n,y_n )

1) 분할표(contingency table)

(이차원) 분할표: 한 변수에 대한 범주는 row에, 다른 변수에 대한 범주는 column에 표시하고, 두 변수의 범주들이 교차하는 칸(cell)마다 각 변수의 범주를 동시에 갖는 관측값을 세어 그 칸의 도수로 삼아 작성한 표
예시) 정책에 대한 지지여부 자료 (n=400)
분할표
상대도수 분할표
성별 지지여부에 대한 상대도수 분할표
지지여부에 따른 성별에 대한 상대도수 분할표

2) 산점도(scatter plot)

산점도: 좌표평면 위에 이차원의 자료값을 점으로 찍어 나타냄
두 특성의 변화관계를 파악하기 위한 기초적인 방법

2. 통계량(statistics)을 이용한 기술통계

Descriptive statistics, Summary statistics

2.1 중심경향성(central tendency)을 나타내는 통계량 (measure of center)

1) 평균(Mean)

산술평균(arithmetic mean)가중평균(weighted mean)으로 구분
산술평균의 특징
All interval and ratio data sets have an arithmetic mean.
All data values are considered and included in the arithmetic mean computation.
A data set has only one arithmetic mean. This says that the mean is unique.
The arithmetic mean is a useful measure for comparing two or more populations
The arithmetic mean is the only measure of central tendency where the sum of the deviations of each value from the mean is always zero.
모평균(population mean): μ=XN\mu = \frac{\sum X}{N}
표본평균(sample mean): 관측값의 산술평균, xˉ=1ni=1nxi\bar{x} = \frac{1}{n} ∑_{i=1}^n x_i
데이터를 요약할 때 1차적으로 보는 대표적 통계량, 가장 널리 사용됨
기하학적인 의미: 관측값의 무게중심
계산과 해석이 간편, 수학적으로 취급하기 쉬움
극단값(extreme value)에 영향을 많이 받음

2) 중앙값(Median)

전체 관측값을 크기 순서로 배열했을 때 가운데 위치하는 값
Mx={x(k+1),ifn=2k+1xk+x(k+1)2,if n=2kM_x = \begin{cases} x_{(k+1)}, \,\,\,\,\,\,\,\,\,\, \text{if}\,\,\, n = 2k+1 \\ \frac{x_k + x_{(k+1)}}{2}, \,\,\,\,\, \text{if } \,\, n=2k \end{cases}
데이터가 짝수개일 경우 가운데 2개 데이터값의 평균을 취함
전체 관측값을 반으로 나누는 경계값. 즉 상위 50%의 관측값이 중앙값보다 크거나 같고 하위 50%의 관측값이 중앙값보다 작거나 같음
Median의 특징
극단값(extreme value) 또는 이상점(outlier)에 덜 민감함
치우침(skewness)의 정도가 심한 자료의 경우에 유용함
The median can be computed for an open-ended frequency distribution as long as the median does not lie in an open-ended class.

3) 최빈값(Mode)

순서 통계량(order statistic)
Advantage of using the mode
이산형 자료에서 주로 사용되며, 범주형 자료에도 사용될 수 있음 (can be used for all types of data - nomial, ordinal, interval, and ratio)
평균과 달리 소수의 극단적 값에 의해 영향을 받지 않음
The mode can also be used to measure open-ended data sets.
Disadvantages of using the mode
평균, 중위수와 달리 하나 이상 존재할 수 있음(e.g. bimode) - 단봉형 분포를 갖는 자료에서만 유효
For many data sets there may be no value that appears more than once.

4) 절사평균(trimmed mean) 윈저화 평균(winsorized mean)

자료 중에서 양쪽 극단의 자료를 일정한 비율만큼을 제외하고 구한 산술평균
0α0.50 ≦ α ≦ 0.5 일 때, (100×α)(100×α)% 절사평균은 자료의 상위, 하위 (100×α)(100×α)% 를 버리고 구한 평균
특징: 표본평균에 비해 극단값 또는 이상점의 영향을 적게 받음

5) 표본평균, 중앙값, 최빈값의 비교

표본평균이 중앙값보다 이해와 이론전개가 쉬우므로 많이 사용됨
표본평균은 전체 관측값이 골고루 반영되므로 대표값으로 가치가 있으나 극단적인 값에 영향을 많이 받음 이에 비해 중앙값은 순서가 중요하므로 중앙부분 이외의 관측값의 변화에 민감하지 않고, 극단적인 관측값에 영향을 받지 않음
평균과 중앙값과 달리 최빈값은 연속형 자료에는 적합하지 않음. 그러나 범주형 자료에도 적용될 수 있다는 장점이 있음
분포의 모양에 따른 표본평균, 중앙값, 최빈값의 위치
Mode는 가장 높은 곳, median은 mean과 mode 사이에 위치함
right-tailed distribution == positively skewed == SK>0SK > 0 left-tailed distribution == negatively skewed == SK<0SK < 0

6) Kurtosis (measure of peakedness)

Normal distribution have a kurtosis equal to 3
leptokurtic: kurtosis > 3
platykurtic: kurtosis < 3 (distributions with a flat peak)

2.2 분산도(산포도)를 나타내는 통계량 (measure of dispersion)

1) 범위(range)

데이터에 포함된 관측치의 최대값과 최소값 사이의 차이
장점: 간편하게 구할 수 있고 해석이 용이함
단점: 극단값이나 이상점이 있는 경우 범위가 매우 크게 나올 수 있음
실제에서는 많이 사용되지 않음

2) 사분위수범위(IQR, interquartile range)

백분위수(percentile): 제 100×p100×p 백분위수 (the 100×p-th percentile)
전체 관측값을 크기 순서대로 나열했을 때 전체 관측값을 (100×p)(100×p)%(100×(1p))(100×(1-p))%로 나눌 수 있는 값
즉 자료의 수가 nn개일 때 그 값보다 작거나 같은 관측값의 개수가 npnp개 이상이고 그 값보다 크거나 같은 관측값이 n(1p)n(1-p)개 이상인 값
사분위수(quartile): 자료를 오름차순으로 늘어놓았을 때, 4등분하는 값
제 1 사분위수: Q1=Q1= 제 25 백분위수
제 2 사분위수: Q2=Q2= 제 50 백분위수 = 중앙값
제 3 사분위수: Q3=Q3= 제 75 백분위수
사분위수범위(interquartile range: IQR)
사분위수범위는 중앙에 위치한 50%의 관측값의 퍼진 정도를 나타내는 값
IQR=Q3Q1IQR= Q_3- Q_1
극단값의 영향을 적게 받음
이론적 추론이 어렵기 때문에 분산이나 표준편차만큼 많이 사용되지 않음

3) MD(Mean deviation, or MAD, Mean absolute deviation)

Mean deviation: the average of the absolute values of the deviations from the arithmetic mean
MD=XXˉn\text{MD} = \frac{\sum{|X - \bar X}|}{n}

4) 분산과 표준편차

편차(deviation): 데이터의 개별 관측치가 해당 데이터의 평균으로부터 떨어진 정도
편차의 합은 0이다
i=1n(xixˉ)=0∑_{i=1}^n (x_i - \bar{x})=0
분산(variance): 각각의 편차를 제곱하여 모두 합한 후 관측치 개수로 나눈 통계량
1ni=1n(xixˉ)2=(x1xˉ)2+(x2xˉ)2+(x3xˉ)2++(xnxˉ)2)n\frac{1}{n} ∑_{i=1}^n {(x_i- \bar{x})}^2 = \frac{{(x_1- \bar{x})}^2+ {(x_2- \bar{x})}^2 + {(x_3- \bar{x})}^2 + ⋯ + {(x_n- \bar{x})}^2 )}{n}
모분산(population variance): 모집단의 분산
σ2=(Xμ)2N\sigma^2 = \frac{\sum{{(X - \mu)}^2}}{N}
모분산 간편계산식: 제평 - 평제 (제곱의 평균 - 평균의 제곱)
σ2=X2N(XN)2\sigma^2 = \frac{\sum{X^2}}{N} - (\frac{\sum{X}}{N})^2
표본분산(sample variance) s²은 표본의 분산
s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1} ∑_{i=1}^n {(x_i- \bar{x})}^2
제곱합의 간편계산식
i=1n(xixˉ)2=i=1nxi2n(xˉ)2=i=1nxi21n(i=1nxi)2∑_{i=1}^n {(x_i- \bar{x})}^2 = ∑_{i=1}^n {{x_i}^2} - n{(\bar{x})}^2 = ∑_{i=1}^n {{x_i}^2} -\frac{1}{n} {\Biggl(∑_{i=1}^n {{x_i}}\Biggr)}^2
자유도(degrees of freedom): n-1
연구자에게 실질적으로 정보를 제공해주는 자료의 개수
n으로 나누게되면 저평가 경향 (biased)
표준편차(standard deviation): 분산의 제곱근
원래 관측치들과 같은 측정단위로 분산도를 나타냄 (분산은 제곱되어 있으니 제곱근을 취함)
표준편차=분산=1ni=1n(xixˉ)2\text{표준편차} = \sqrt{분산} = \sqrt{\frac{1}{n}∑_{i=1}^n {(x_i- \bar{x})}^2}
모표준편차(population standard deviation)
σ=(Xμ)2N\sigma = \sqrt{\frac{\sum{(X - \mu)^2}}{N}}
표본표준편차(sample standard deviation)
s=s2s = \sqrt{s^2}
분산과 표준편차의 성질
yi=axi+b,i=1,,nsy2=a2sx2,sy=asxy_i=ax_i+b, \quad i=1,⋯,n \quad ⟹ \quad s_y^2=a^2 s_x^2, \quad s_y=|a| s_x
Chebyshev's Theorem
For any set of observations (sample or population, regardless of the shape of the distribution) the minimum proportion of observations falling within "k" standard deviations of the distribution mean is 11k21 - \frac{1}{k^2}. The number of standard deviation(k) in the equation has to be greater than 1.
어떤 관측치 셋이라도(모집단인지 샘플인지, 분포 형태와도 상관없이) 평균으로부터 k 표준편차 내에 있는 관측치의 최소 비율은 11k21 - \frac{1}{k^2}이다. (이때, k는 1보다 커야한다)
예제
What approximate percent of a distribution will lie within +- two standard deviations of the mean?
From Chebyshev’s Theorem: 11k2=1122=0.75 or 75%1 - \frac{1}{k^2} = 1 - \frac{1}{2^2} = 0.75 \text{ or } 75\%
e.g. 만약 데이터셋의 연봉 평균이 2000만원, 표준편차가 200만원이라면 k=2일 때, 최소 75%는 1600~2400만원의 연봉을 받는다고 추론 가능하다.
Thus, Chebyshev’s Theorem stats that for any distribution, approximately:
75% of observations lie within +- 2 standard deviations of the mean
88.9% of observations lie within +- 3 standard deviations of the mean
93.75% of observations lie within +- 4 standard deviations of the mean
96% of observations lie within +- 5 standard deviations of the mean

5) 변동계수(coefficient of variation, CV)

CV=sxˉ×100(%)CV = \frac{s}{\bar x} \times {100} (\%)
표본평균에 대한 상대적인 퍼진 정도를 백분율로 나타낸 것
단위가 다르거나 중심위치가 매우 다른 두 개 이상의 분포를 비교할 때 주로 사용

6) z-점수(z-score)

zi=xixˉs,i=1,2,,nz_i = \frac{x_i - \bar x}{s}, \quad i=1, 2, \cdots, n
특정한 자료값이 평균으로부터 표준편차의 몇 배만큼 떨어져 있는가를 측정함

상자그림(box plot) (상자-수염 그림: box-whisker plot)

상자그림 작성과정
사분위수를 결정(Q1,Q2,Q3)(Q1, Q2, Q3)
Q1Q1Q3Q3을 네모난 상자로 연결하고, 중앙값(Q2)(Q2)의 위치에 수직선 그림
IQR을 계산: IQR=Q3Q1IQR = Q3 - Q1
상자 양 끝에서 1.5IQR1.5 * IQR 크기의 범위를 경계로 하여, 이 범위에 포함되는 최소값과 최대값을 Q1Q1Q3Q3로부터 각각 선으로 연결
양 경계를 벗어나는 자료값들을 *로 표시하고, 이 점들을 이상점이라고 함
특징
자료의 중심위치, 퍼진정도, 분포의 대칭성, 분포의 집중정도, 이상점 등을 파악하는데 유용
자료의 봉우리가 하나 있는 분포를 가정하여 만들어졌으므로 봉우리가 여러 개 있는 분포를 갖는 자료는 효과적으로 분석할 수 없음
여러 자료집단의 상자그림을 나란히 배열함으로써 여러 개의 분포를 동시에 비교 가능

상관계수(correlation coefficient)

두 변수 사이의 선형 상관관계를 나타냄
(피어슨의) 표본상관계수 (Pearson’s sample correlation coefficient)의 정의
r=Sxy(Sxx×Syy)r= \frac{S_{xy}}{\sqrt{(S_{xx} \times S_{yy})}}
단,Sxy=i=1n(xixˉ)(yiyˉ),Sxx=i=1n(xixˉ)2,Syy=i=1n(yiyˉ)2,xˉ=1ni=1nxi,yˉ=1ni=1nyi\text{단,} \quad S_{xy} = ∑_{i=1}^n {(x_i- \bar{x})(y_i- \bar{y})}, \quad S_{xx} = ∑_{i=1}^n {(x_i- \bar{x})^2}, \quad S_{yy} = ∑_{i=1}^n {(y_i- \bar{y})^2}, \quad \bar x= \frac{1}{n}\sum_{i=1}^n x_i, \quad \bar y = \frac{1}{n}\sum_{i=1}^n y_i
표본상관계수의 특징
범위: 1r1-1≤ r ≤1
표본상관계수의 절대값의 크기는 직선관계에 가까운 정도를 나타내고, 표본상관계수의 부호는 직선관계의 부호를 나타냄
r>0r > 0 : 산점도의 점들이 우상향으로 띠를 형성. 정(+)의 관계
r<0r < 0 : 산점도의 점들이 우하향으로 띠를 형성. 부(-)의 관계
r=1r = 1 : 모든 점이 기울기가 양수인 직선 위에 정확히 위치
r=1r = -1 : 모든 점이 기울기가 음수인 직선 위에 정확히 위치
표본상관계수는 직선의 관계를 나타내는 측도이므로, 두 변수 사이에 직선이 아닌 다른 관계가 있을 때에는 적합하지 않음 (먼저 직선관계가 있는지 scatter plot 등을 이용해 확인해야 함)
표본상관계수는 단위가 없으므로, 단위가 다른 여러 쌍의 변수에서 직선관계의 정도를 비교할 수 있음
큰 상관계수 값이 항상 두 변수 사이의 인과관계를 의미하지는 않음