Search
🎲

확률통계 1-1. 통계학

Created at
2019/09/14
Updated at
2021/01/25
Tags
Keywords
통계 기초
3 more properties
목차

1. 통계학의 구분

통계학이란, 과거 자료를 수집/정리/분석하여 불확실한 미래를 위한 보다 합리적인 의사결정을 하기 위한 학문을 말한다.

1.1 기술통계학(descriptive statistics)

수집된 자료를 정리 요약하여 자료 집단의 특성을 기록/서술하는데 중점을 둔 통계학

1.2 추측통계학(inferential statistics)

sample → population 추측
모집단으로부터 추출된 표본의 통계량(statistics)을 기초로 모집단의 참값(parameter, 모수)을 밝히는데 중점을 둔 통계학
모집단(population): 얻고자 하는 정보와 관련 있는 모든 개체로부터 얻을 수 있는 모든 관측값들의 집합. 모든 추출단위의 특성값들을 모아 놓은 것들의 모임. 추론의 대상
표본(sample): 모집단의 일부분으로, 원하는 정보를 얻기 위해 수행한 관측과정을 통하여 실제로 얻어진 관측결과의 집합
일부인 표본자료를 분석함으로써 전체(모집단)에 대해 추측, 일반화시키는 통계적 방법
추측통계학의 모든 예측과 결론은 확률을 기본 개념으로 하여 불확실성의 정도를 나타냄
표본조사(sampling)
단순랜덤추출법(Simple random sampling, s.r.s.)
계통추출법(systematic sampling)
층화추출법(stratified sampling)
집락추출법(cluster sampling)

2. 척도와 데이터

2.1 척도의 종류

1) 명목척도(nominal scale)

측정대상의 특성을 단순하게 구분할 목적으로 숫자를 부여하는 척도로서 범주척도(categorical scale)라고도 함
측정대상들 사이의 순위나 정도의 차이, 크기 차이 등에 관한 정보를 얻을 수 없음

2) 순위척도(ordinal scale)

측정대상의 순위를 나타내기 위해 숫자를 사용하는 척도
측정대상들 간 정도 차이, 크기 차이가 얼마나 되는지에 관한 정보를 얻을 수 없음

3) 등간척도(interval scale)

측정대상이 보유하고 있는 속성의 정도나 크기를 측정할 수 있도록 동일한 간격을 부여한 척도
태도나 만족도 등을 파악하는 설문조사에서 자주 사용하는 5점/7점 척도가 통상 등간 척도로 간주되어 사용
두 대상 사이의 보유속성의 양적 차이가 어느 정도인지도 알 수 있는 정보를 담음
등간척도를 사용하여 얻은 데이터는 더하기와 빼기 연산이 가능하지만 숫자 0의 의미를 무(無)의 의미로 해석할 수 없음

4) 비율척도(ratio scale)

측정대상 보유속성의 양적 차이를 알 수 있게 해주는 등간척도의 특성에 더하여 측정대상의 보유속성 사이의 비율계산까지 가능하게 하는 척도
0은 무(無)를 의미하며, 덧셈/뺄셈/곱셈/나눗셈 등 모든 사칙연산 사용 가능

2.2 데이터의 종류

1) 양적데이터와 질적데이터

질적자료(qualitative data): 범주형 자료(categorical data) ⤑ 숫자로서의 의미는 없음
명목형자료(nominal data): 범주간 순서의 의미가 없는 자료
순위형자료(ordinal data): 범주간 순서의 의미가 있는 자료
양적자료(quantitative data): 측정자료(measurement data)
계수자료(counting data)
연속형자료(continuous data)
자료를 discrete data와 continuous data로 나눌 수도 있음
범주형자료와 계수자료가 이산형자료에 속함

2) 횡단데이터와 종단데이터

횡단데이터
관심의 대상이 되는 변수들을 동일 시점으로 볼 수 있는 시기에 측정하여 얻은 값들로 구성된 데이터
두 변수 사이의 선후 관계를 알 수 없기 때문에 엄밀한 인과관계 규명이 어려움
종단데이터
관심의 대상이 되는 변수들을 일정 시차를 두고 관측하여 얻은 값들로 구성된 데이터
일정기간동안 관측하여 얻은 값들로 구성된 시계열 데이터(time series data), 동일한 개체들을 대상으로 일부 변수들과 또 다른 변수들의 관측 시점을 달리하여 얻은 데이터 등
원인 변수와 결과변수의 측정시점을 달리하여 얻은 데이터는 시간 선후가 명확해 인과관계 규명에 유용