목차
1. 자료의 요약
표(table)와 그래프(graph)를 이용한 기술 통계
1.1 이산자료
•
도수: 각 범주에 속하는 관측값의 개수
•
도수분포표(frequency table): 서로 다른 특성값에 대한 도수(frequency)나 상대도수(relative frequency)를 구하여 특성값과 함께 나열한 표
◦
도수분포표, 상대도수분포표, 누적도수분포표
•
막대그래프(bar graph): 수평축에 서로 다른 특성값을 배열하고, 막대 높이가 상대도수나 도수에 비례하도록 막대를 그린 그래프
•
원형그래프(pie graph): 부채꼴의 중심각의 크기나 넓이가 상대도수에 비례하도록 그린 그래프
1.2 연속자료
•
도수분포표: 전체 표본자료의 범위를 몇 개의 적당한 계급으로 나누고, 각 계급의 도수나 상대도수를 구하여 계급과 함께 나열한 표
•
히스토그램(histogram): 수평축에 계급구간을 표시하고, 그 위에 직사각형의 넓이가 상대도수에 비례하도록 직사각형을 그린 그림
•
도수다각형(frequency polygon): 히스토그램에서 각 계급구간 막대 상단의 중앙점을 직선으로 연결하여 그린 것
◦
자료의 분포상태를 히스토그램보다 쉽게 파악할 수 있고, 하나의 좌표에 여러 개의 도수다각형을 그릴 수 있어 여러 개의 자료를 비교할 때 사용
•
줄기-잎 그림(stem-and-leaf display)
◦
작성요령: 줄기 → 잎 배열 → 잎을 크기 순서대로 나열
◦
히스토그램을 90° 회전한 모양
◦
잎의 폭은 임의로 정할 수 있으나 일정해야 함 (히스토그램의 밑변의 길이는 일정하지 않아도 됨)
◦
히스토그램과 달리 자료값을 그대로 갖고 있어 정보의 손실이 거의 없음
◦
자료의 형태 파악이 쉽고, 이상점 자료에 대한 정보를 제공
◦
자료의 개수가 많은 경우에는 그리기 어려움
•
분포의 모양
◦
대칭(symmetry)
◦
치우침(skewness)
◦
봉우리의 개수(number of mode)
◦
종형(bell-shaped)
1.3 이차원 자료의 요약 (두 변수 자료의 요약)
개의 표본이 있을 경우. 다음과 같은 형태:
1) 분할표(contingency table)
•
(이차원) 분할표: 한 변수에 대한 범주는 row에, 다른 변수에 대한 범주는 column에 표시하고, 두 변수의 범주들이 교차하는 칸(cell)마다 각 변수의 범주를 동시에 갖는 관측값을 세어 그 칸의 도수로 삼아 작성한 표
•
예시) 정책에 대한 지지여부 자료 (n=400)
•
분할표
•
상대도수 분할표
•
성별 지지여부에 대한 상대도수 분할표
•
지지여부에 따른 성별에 대한 상대도수 분할표
2) 산점도(scatter plot)
•
산점도: 좌표평면 위에 이차원의 자료값을 점으로 찍어 나타냄
•
두 특성의 변화관계를 파악하기 위한 기초적인 방법
2. 통계량(statistics)을 이용한 기술통계
Descriptive statistics, Summary statistics
2.1 중심경향성(central tendency)을 나타내는 통계량 (measure of center)
1) 평균(Mean)
•
산술평균(arithmetic mean)과 가중평균(weighted mean)으로 구분
•
산술평균의 특징
◦
All interval and ratio data sets have an arithmetic mean.
◦
All data values are considered and included in the arithmetic mean computation.
◦
A data set has only one arithmetic mean. This says that the mean is unique.
◦
The arithmetic mean is a useful measure for comparing two or more populations
◦
The arithmetic mean is the only measure of central tendency where the sum of the deviations of each value from the mean is always zero.
•
모평균(population mean):
•
표본평균(sample mean): 관측값의 산술평균,
◦
데이터를 요약할 때 1차적으로 보는 대표적 통계량, 가장 널리 사용됨
◦
기하학적인 의미: 관측값의 무게중심
◦
계산과 해석이 간편, 수학적으로 취급하기 쉬움
◦
극단값(extreme value)에 영향을 많이 받음
2) 중앙값(Median)
•
전체 관측값을 크기 순서로 배열했을 때 가운데 위치하는 값
•
데이터가 짝수개일 경우 가운데 2개 데이터값의 평균을 취함
•
전체 관측값을 반으로 나누는 경계값. 즉 상위 50%의 관측값이 중앙값보다 크거나 같고 하위 50%의 관측값이 중앙값보다 작거나 같음
•
Median의 특징
◦
극단값(extreme value) 또는 이상점(outlier)에 덜 민감함
◦
치우침(skewness)의 정도가 심한 자료의 경우에 유용함
◦
The median can be computed for an open-ended frequency distribution as long as the median does not lie in an open-ended class.
3) 최빈값(Mode)
순서 통계량(order statistic)
•
Advantage of using the mode
◦
이산형 자료에서 주로 사용되며, 범주형 자료에도 사용될 수 있음 (can be used for all types of data - nomial, ordinal, interval, and ratio)
◦
평균과 달리 소수의 극단적 값에 의해 영향을 받지 않음
◦
The mode can also be used to measure open-ended data sets.
•
Disadvantages of using the mode
◦
평균, 중위수와 달리 하나 이상 존재할 수 있음(e.g. bimode) - 단봉형 분포를 갖는 자료에서만 유효
◦
For many data sets there may be no value that appears more than once.
4) 절사평균(trimmed mean) 윈저화 평균(winsorized mean)
•
자료 중에서 양쪽 극단의 자료를 일정한 비율만큼을 제외하고 구한 산술평균
•
일 때, 절사평균은 자료의 상위, 하위 를 버리고 구한 평균
•
특징: 표본평균에 비해 극단값 또는 이상점의 영향을 적게 받음
5) 표본평균, 중앙값, 최빈값의 비교
•
표본평균이 중앙값보다 이해와 이론전개가 쉬우므로 많이 사용됨
•
표본평균은 전체 관측값이 골고루 반영되므로 대표값으로 가치가 있으나 극단적인 값에 영향을 많이 받음
이에 비해 중앙값은 순서가 중요하므로 중앙부분 이외의 관측값의 변화에 민감하지 않고, 극단적인 관측값에 영향을 받지 않음
•
평균과 중앙값과 달리 최빈값은 연속형 자료에는 적합하지 않음. 그러나 범주형 자료에도 적용될 수 있다는 장점이 있음
•
분포의 모양에 따른 표본평균, 중앙값, 최빈값의 위치
◦
Mode는 가장 높은 곳, median은 mean과 mode 사이에 위치함
◦
right-tailed distribution == positively skewed ==
left-tailed distribution == negatively skewed ==
6) Kurtosis (measure of peakedness)
•
Normal distribution have a kurtosis equal to 3
•
leptokurtic: kurtosis > 3
•
platykurtic: kurtosis < 3 (distributions with a flat peak)
2.2 분산도(산포도)를 나타내는 통계량 (measure of dispersion)
1) 범위(range)
•
데이터에 포함된 관측치의 최대값과 최소값 사이의 차이
•
장점: 간편하게 구할 수 있고 해석이 용이함
•
단점: 극단값이나 이상점이 있는 경우 범위가 매우 크게 나올 수 있음
•
실제에서는 많이 사용되지 않음
2) 사분위수범위(IQR, interquartile range)
•
백분위수(percentile): 제 백분위수 (the 100×p-th percentile)
◦
전체 관측값을 크기 순서대로 나열했을 때 전체 관측값을 와 로 나눌 수 있는 값
◦
즉 자료의 수가 개일 때 그 값보다 작거나 같은 관측값의 개수가 개 이상이고 그 값보다 크거나 같은 관측값이 개 이상인 값
•
사분위수(quartile): 자료를 오름차순으로 늘어놓았을 때, 4등분하는 값
◦
제 1 사분위수: 제 25 백분위수
◦
제 2 사분위수: 제 50 백분위수 = 중앙값
◦
제 3 사분위수: 제 75 백분위수
•
사분위수범위(interquartile range: IQR)
◦
사분위수범위는 중앙에 위치한 50%의 관측값의 퍼진 정도를 나타내는 값
◦
극단값의 영향을 적게 받음
◦
이론적 추론이 어렵기 때문에 분산이나 표준편차만큼 많이 사용되지 않음
3) MD(Mean deviation, or MAD, Mean absolute deviation)
•
Mean deviation: the average of the absolute values of the deviations from the arithmetic mean
4) 분산과 표준편차
•
편차(deviation): 데이터의 개별 관측치가 해당 데이터의 평균으로부터 떨어진 정도
◦
편차의 합은 0이다
•
분산(variance): 각각의 편차를 제곱하여 모두 합한 후 관측치 개수로 나눈 통계량
◦
모분산(population variance): 모집단의 분산
▪
모분산 간편계산식: 제평 - 평제 (제곱의 평균 - 평균의 제곱)
◦
표본분산(sample variance) s²은 표본의 분산
▪
제곱합의 간편계산식
▪
자유도(degrees of freedom): n-1
•
연구자에게 실질적으로 정보를 제공해주는 자료의 개수
•
n으로 나누게되면 저평가 경향 (biased)
•
표준편차(standard deviation): 분산의 제곱근
◦
원래 관측치들과 같은 측정단위로 분산도를 나타냄
(분산은 제곱되어 있으니 제곱근을 취함)
◦
모표준편차(population standard deviation)
◦
표본표준편차(sample standard deviation)
•
분산과 표준편차의 성질
•
Chebyshev's Theorem
◦
For any set of observations (sample or population, regardless of the shape of the distribution) the minimum proportion of observations falling within "k" standard deviations of the distribution mean is . The number of standard deviation(k) in the equation has to be greater than 1.
어떤 관측치 셋이라도(모집단인지 샘플인지, 분포 형태와도 상관없이) 평균으로부터 k 표준편차 내에 있는 관측치의 최소 비율은 이다. (이때, k는 1보다 커야한다)
◦
예제
What approximate percent of a distribution will lie within +- two standard deviations of the mean?
From Chebyshev’s Theorem:
e.g. 만약 데이터셋의 연봉 평균이 2000만원, 표준편차가 200만원이라면
k=2일 때, 최소 75%는 1600~2400만원의 연봉을 받는다고 추론 가능하다.
Thus, Chebyshev’s Theorem stats that for any distribution, approximately:
▪
75% of observations lie within +- 2 standard deviations of the mean
▪
88.9% of observations lie within +- 3 standard deviations of the mean
▪
93.75% of observations lie within +- 4 standard deviations of the mean
▪
96% of observations lie within +- 5 standard deviations of the mean
5) 변동계수(coefficient of variation, CV)
•
표본평균에 대한 상대적인 퍼진 정도를 백분율로 나타낸 것
•
단위가 다르거나 중심위치가 매우 다른 두 개 이상의 분포를 비교할 때 주로 사용
6) z-점수(z-score)
•
특정한 자료값이 평균으로부터 표준편차의 몇 배만큼 떨어져 있는가를 측정함
상자그림(box plot) (상자-수염 그림: box-whisker plot)
•
상자그림 작성과정
◦
사분위수를 결정
◦
과 을 네모난 상자로 연결하고, 중앙값의 위치에 수직선 그림
◦
IQR을 계산:
◦
상자 양 끝에서 크기의 범위를 경계로 하여, 이 범위에 포함되는 최소값과 최대값을 과 로부터 각각 선으로 연결
◦
양 경계를 벗어나는 자료값들을 *로 표시하고, 이 점들을 이상점이라고 함
•
특징
◦
자료의 중심위치, 퍼진정도, 분포의 대칭성, 분포의 집중정도, 이상점 등을 파악하는데 유용
◦
자료의 봉우리가 하나 있는 분포를 가정하여 만들어졌으므로 봉우리가 여러 개 있는 분포를 갖는 자료는 효과적으로 분석할 수 없음
◦
여러 자료집단의 상자그림을 나란히 배열함으로써 여러 개의 분포를 동시에 비교 가능
상관계수(correlation coefficient)
두 변수 사이의 선형 상관관계를 나타냄
•
(피어슨의) 표본상관계수 (Pearson’s sample correlation coefficient)의 정의
•
표본상관계수의 특징
◦
범위:
◦
표본상관계수의 절대값의 크기는 직선관계에 가까운 정도를 나타내고, 표본상관계수의 부호는 직선관계의 부호를 나타냄
▪
: 산점도의 점들이 우상향으로 띠를 형성. 정(+)의 관계
▪
: 산점도의 점들이 우하향으로 띠를 형성. 부(-)의 관계
▪
: 모든 점이 기울기가 양수인 직선 위에 정확히 위치
▪
: 모든 점이 기울기가 음수인 직선 위에 정확히 위치
◦
표본상관계수는 직선의 관계를 나타내는 측도이므로, 두 변수 사이에 직선이 아닌 다른 관계가 있을 때에는 적합하지 않음 (먼저 직선관계가 있는지 scatter plot 등을 이용해 확인해야 함)
◦
표본상관계수는 단위가 없으므로, 단위가 다른 여러 쌍의 변수에서 직선관계의 정도를 비교할 수 있음
◦
큰 상관계수 값이 항상 두 변수 사이의 인과관계를 의미하지는 않음