Search
📖

⟪데이터 분석의 힘⟫ 이토 고이치로

Created at
2022/11/03
Updated at
2022/11/06
Tags
Keywords
책 리뷰
통계적추론
3 more properties

⟪데이터 분석의 힘⟫

이토 고이치로 | 전선영 옮김 | 인플루엔셜 | 2018
별점: ★★★★
데이터 분석의 기초적이면서도 핵심적인 부분인 ‘인과추론’을 쉽게 설명한다.
어려운 수식은 빼놓고 이론을 이해하기 쉽게 설명해주기 때문에 데이터 분석에 관심을 갖는 사람들이 처음에 읽어보기 아주 좋은 책이다. 데이터 분야 관련자도 생각을 정리한다는 마음으로 읽어볼 만 하다.

본 것

인과 추론

인과관계를 입증하기 어려운 이유
1.
다른 요인이 영향을 미쳤을 가능성 (교란 요인)
2.
인과관계가 반대일 가능성 (역의 인과관계)
잘못된 인과추론의 문제점
원하는 결과를 얻지 못함
시간과 비용의 낭비
편향(bias)
분석으로 얻은 추정치의 치우침, 잘못된 데이터 분석에서 도출된 오차
데이터의 관측 수가 늘어나도 편향 문제는 해결되지 않음

RCT, 인과관계를 밝히는 가장 좋은 방법

잠재적 결과 접근법(potential outcome approach)
개입효과(treatment effect): 인과관계에 의한 효과
counterfactual potential outcome: 개입효과를 측정하기 위해 필요한, 개입이 없었을 경우의 데이터
하지만 실제로 일어나지 않은 일이기에 현실에서는 관측이 불가능하다
→ “인과적 추론의 근본 문제”
개입집단과 비교집단을 비교하여 문제 해결 가능
한 사람에 대한 개입효과는 측정할 수 없지만 여러 사람에 대한 ‘평균 개입효과(Avg. Treatment Effect, ATE)는 측정할 수 있다.
두 집단을 비교해 평균 개입효과를 측정하기 위한 가정:
개입(XX)이 없을 경우 비교집단의 평균결과(YCY_C)와 개입집단의 평균결과(YTY_T)는 같다
통상적으로는 이 가정이 입증 불가능하지만 RCT로 실험군/대조군을 나누었을 때는 예외
RCT(Randomized Controlled Trial, 무작위 비교 시행)
최선의 인과관계 분석법. 실험 대상을 랜덤하게 실험군/대조군으로 나누어 개입 효과를 측정한다.
무작위로 집단을 나눌 경우 어느 정도의 표본수가 확보되면 두집단은 통계적으로 동질의 집단이 된다.
다양한 다른 온갖 요인에 대해서도 집단 간의 동질성이 확보
“개입(XX)이 없을 경우 비교집단의 평균결과(YCY_C)와 개입집단의 평균결과(YTY_T)는 같다”는 가정 성립
기술통계의 밸런스 체크는 필요하다. 두 집단의 평균값이 비슷하다면 랜덤배정이 잘 이루어진 것
자기 선택(self-selection): 자신의 의지로 개입을 받아들일지 판단하는 것. 자기 선택이 있을 경우 선택 편향이 발생할 가능성이 높음
RCT의 원칙
1.
적절하게 집단을 나눈다. (실험군과 대조군을 문제에 맞게 설정)
2.
집단은 반드시 무작위로 나눈다.
3.
집단별로 충분한 표본수를 채운다.
표본 수가 클수록 우발적인 이유(오차)에 의해 평균값이 크게 변화할 가능성이 줄어든다.
= 표본수가 클수록 평균값 계산에 표준오차가 작아지고 평균값의 신뢰성이 커진다.
집단을 랜덤하게 배정하는 방법
단순 무작위 배정(simple randomization)
실험 참가자의 명단을 무작위로 정렬하여 위에서부터 순서대로 개입집단과 비교집단으로 나누는 것
소프트웨어적으로는 난수(random number)를 발생시켜 배정
참가자가 매우 많을 때는 문제가 없지만, 참가자가 적을 때는 우연히 참가자 특성이 몰릴 수 있음
층화 무작위 배정(stratified randomization) = block randomization
같은 특성을 지닌 참가자를 블록으로 나눈 다음 블록 안에서 난수를 이용해 무작위 배정
블록을 나눌 때 하나의 변수만 기준으로 삼을 필요는 없음
RCT의 장점과 단점
장점
무작위 집단 배정으로 인과관계를 과학적으로 증명함
비교적 간단한 통계분석 기법으로도 주요 결과를 검증하고 설명할 수 있음
단점
비용과 노력이 많이 들어가고 각 기관의 협력 필요

RD디자인, 급격한 변화의 ‘경계선’ 찾기

자연실험
우연히 발생한 실험과 유사한 상황을 이용
의사실험, 유사실험, 준실험 등을 쓰기도 함 (=quasi-experiment)
회귀불연속설계법(RD디자인, Regression Discontinuity Design)
경계선을 중심으로 실험군/대조군이 갈리는 상황을 이용해 인과 효과를 추정하는 방법
경계선 부근에서 저절로 만들어진 RCT
RD디자인에 필요한 가정
만약 경계선에서 X가 변화하지 않는다면 Y도 점프하지 않는다.
X 외의 변수에서는 경계선 부근에서 비연속적인 변화가 일어나지 않았음
분석의 대상이 그래프 가로축 변수를 조작할 수 없음
→ 입증할 수는 없기에 가정이 성립할 것이라는 증거를 최대한 열거할 수밖에 없음
RD디자인의 강점과 약점
강점
RCT를 실시하지 않고도 RCT에 가까운 상황을 만들어낼 수 있음
그래프를 이용해 분석 결과나 가정을 시각적으로 설명해줌
RD디자인을 이용할 수 있는 상황이 많음
약점: 경계선 부근의 사람에 대한 인과관계만 측정할 수 있음

집군분석(Bunching Analysis)

집군분석
어떤 변수에 계단식 변화가 일어나면 일정 정도의 집합군을 만들어내는데, 이 집합군 사이의 관계를 통해 인과관계를 밝혀내는 방법
인센티브가 크게 바뀌는 경계선에서의 데이터 집적을 분석함으로써 개인이나 기업이 인센티브에 어떻게 반응했는지 인과관계를 밝힘
RD디자인과는 달리, 대상이 그래프 가로축의 변수를 스스로 조작할 수 있는 상황에 적용
→ 가로축 변수의 움직임이 관심의 대상
예를 들어, 계단식 연비 규제 정책에 따라 자동차 회사들이 자동차 무게를 늘릴 인센티브가 있는데
규제가 바뀌는 지점에 무게별 연비 규제에 반응해서 무게를 늘린 자동차들이 몰리게 됨
→ 이 자동차들이 그래프의 어느 지점에서 이동해왔는지, 평균적으로 무게를 얼마나 늘렸는지 통계적 추정 가능
집군 분석에 필요한 가정
만약 X가 계단식으로 바뀌지 않는다면 Y의 분포는 매끈하고(연속적이고) 집적하지 않는다.
→ 입증할 수는 없기에 가정이 성립할 것이라는 증거를 최대한 열거할 수밖에 없음
집군분석의 강점과 약점
강점
가정이 성립한다면 경계선 부근에서 RCT가 실시된 듯한 상황을 이용 가능
결과를 그래프로 보여줌으로써 투명한 분석 가능
적용할 수 있는 상황이 다양함
약점
경계점 부근에서 계단식 인센티브의 영향을 받는 대상에 대한 인과관계만 밝혀줌

패널 데이터 분석

패널 데이터 분석
패널 데이터: 복수의 집단에 대해 복수의 기간에 걸쳐 수집한 데이터
개입 전후 두 집단의 데이터를 통해 인과관계 분석
개입 후의 YTYCY_T- Y_C와 개입전의 YTYCY_T- Y_C를 빼서 개입 효과를 구함
→ 이중차분법 (Difference in differences methods)
패널 데이터 분석의 가정
만약 개입이 일어나지 않았다면 실험군의 평균값 YTY_T와 대조군의 평균값 YCY_C는 평행한 추이를 보인다
(평행 트렌드 가정)
개입 이전에 평행 트렌드 가정이 성립했다면 ‘이후에도 성립할 것’이라는 추정이 가능
개입 이후 개입집단에만 영향을 미친 다른 사건이나 변수가 없음 (공통쇼크는 문제가 되지 않음)
패널 데이터 분석의 강점과 약점
강점
다양한 상황에서 활용 가능
결과를 그래프로 보여줄 수 있어 쉽고 투명한 분석이 가능
평행 트렌드 가정이 지켜지는 한, 개입집단과 비교집단 간에 원래 차이가 있었어도 문제가 되지 않음
개입을 받은 모든 대상의 개입 효과에 대해 인과관계를 측정할 수 있음
약점
평행 트렌드 가정이 많은 상황에서 성립하지 않음
복수 기간에 걸쳐 개입집단과 비교집단의 데이터를 수집해야 함

데이터 분석의 활용과 한계

과학적 데이터 분석의 효과
RCT 같은 과학적 방법으로 인과관계를 제시하는 경우 이데올로기 논쟁을 뛰어넘어 데이터 분석에 근거한 논의가 가능
데이터 분석의 성공 요건
1.
데이터 분석 전문가와 협력 관계를 구축한다.
2.
데이터에 접근할 수 있는 길을 연다.
데이터 분석의 한계
데이터에 문제가 있는 경우에는 무용지물
데이터 측정에 문제가 있고 수치도 바르게 기재되어 있지 않은 경우
대량의 결측치가 있는 경우
편중된 표본에서 확보한 데이터인 경우
외적 타당성: 실험, 자연실험으로 발견한 인과관계가 다른 대상에게도 적용될 수 있는지
내적 타당성과 외적 타당성 모두를 생각하면, 상황에 따라 각 분석 방법의 장단점이 있음
외적 타당성 없는 분석은 쓺모없다고 하는 연구자도 있지만, 우선 내적 타당성이 있는 분석 결과를 이끌어 내는 것이 첫걸음이며, 그 단계 없이는 외적 타당성을 논의하는 단계로 나아갈 수 없음
출판 편향과 협력관계 편향
출판 편향: 의도나 기대에 어긋나는 결과를 발표하기 꺼리는 풍조. 외적 타당성에 취약한 분석을 유도함
협력관계 편향: 협력해줄 만한 파트너만 골라서 분석을 실시하면 타당성 면에서 편향이 있는 분석 결과가 나올 수 있음
개입에 파급효과(spillover effect)가 존재할 때
개입집단에만 편익이 발생하리라는 예상을 깨고 비교집단도 어떤 형태로든 영향을 받는 현상
대책
개입집단을 어느 수준으로 설정할지 깊이 생각한다 (파급효과가 없도록 분리)
개입효과 외의 개입의 파급효과도 분석할 수 있도록 실험을 설계
일반 균형적 효과
실험의 결과를 바탕으로 실제 정책으로 광범위하게 개입이 이루어지면 예상치 못했던 변수도 영향을 받게 됨

깨달은 것

데이터 분석에 있어서 상관 관계와 인과 관계를 구분하는 것의 중요성은 아무리 강조해도 지나치지 않음
인과 추론의 가장 확실한 방법은 RCT
RCT를 실시하기 어려운 상황에서는 자연실험/준실험을 이용할 수 있다.
준실험 방법에는 RD디자인, 집군분석, 패널 데이터 분석 등의 방법이 있다.
데이터를 분석해서 비즈니스나 정책에 활용할 때에는 데이터 분석의 강점과 한계를 제대로 이해해야 한다.

적용할 것

인과 추론이 프로덕트 분석에 활용되는 프로덕트 분석 방법론을 더 구체적으로 공부할 것