Search
📖

⟪원인과 결과의 경제학⟫ 나카무로 마키코, 쓰가와 유스케

Created at
2022/11/07
Updated at
2022/11/07
Tags
Keywords
책 리뷰
통계적추론
3 more properties

⟪원인과 결과의 경제학⟫

나카무로 마키코, 쓰가와 유스케 | 윤지나 옮김 | 리더스북 | 2018년
별점: ★★★★
⟪데이터 분석의 힘⟫ 이토 고이치로 을 읽고 연관 도서로 연달아 읽게 되었다. 상당히 유사한 내용을 다루고 있어 함께 보면서 내용을 정리하기 좋다. 이 책도 역시 통계/데이터 분석에서 인과 관계를 분석한다는 것의 의미, 중요성, 방법을 아주 쉽고 흥미롭게 설명해주는 책이다. (마찬가지로 방법론의 구체적인 면과 수식 등은 다루지 않는다.)
데이터 분석에 익숙한 사람이라면 더욱 쉽게 읽고 생각을 정리할 수 있는 것은 당연하고, 데이터 분석에 입문하는 사람에게도 무리 없이 이해될 수 있도록 쓰여있어 더욱 추천한다. 오히려 좋아!

본 것

인과 추론의 중요성
인과관계와 상관관계를 혼동하면 잘못된 판단을 내리는 우를 범할 수 있다. 잘못된 인과추론을 믿고 행동하면 기대했던 효과를 얻지 못할 뿐 아니라 돈과 시간까지 낭비할 수 있다. 돈과 시간을 정확히 인과관계에 근거한 곳에 쓰면 좋은 결과를 얻을 확률이 그만큼 높아진다
빅데이터 시대에는 데이터 분석 기술뿐 아니라 데이터의 분석 결과를 해석하는 기술도 필요하다.
‘인과 추론’은 결국 데이터가 범람하는 시대의 필수 교양
인과 추론의 본질
두 변수의 상관관계가 정말 인과관계인지 확인하려면 다음의 세 가지를 체크할 것
1.
‘우연의 일치’는 아닌가? (거짓 상관)
2.
‘제3의 변수’는 없는가?
제3의 변수: 원인과 결과 모두에 영향을 주며, 상관관계에 지나지 않는 것을 마치 인과관계가 있는 것처럼 보이게 만드는 성가신 존재. (=‘교란 요인’)
3.
‘역逆의 인과관계’는 존재하지 않는가?
두 변수가 인과관계에 있다면 다시 원인이 발생했을 때 같은 결과를 얻게 된다. 즉 ‘우연의 일치’, ‘교란 요인’, ‘역의 인과관계’는 존재하지 않는다는 것이다.
한편 두 변수의 관계가 상관관계에 지나지 않는다면, ‘우연의 일치’, ‘교란 요인’, ‘역의 인과관계’ 중 하나가 존재한다. 상관관계의 경우, 그 원인이 다시 일어나도 같은 결과를 얻게 된다고 보기는 어렵다.
인과관계의 존재는 원인이 발생한 ‘사실’의 결과와, 원인이 발생하지 않은 ‘반사실’의 결과를 비교해 증명해야 한다. 문제는 현실에서는 사실은 관찰할 수 있지만 반사실은 관찰할 수 없다는 것인데, 하버드 대학교의 통계학 교수 도널드 루빈(Donald Rubin)은 이를 ‘인과 추론의 근본 문제’라고 불렀다.
인과 추론 방법의 공통 과제는 ‘인과 추론의 근본 문제’를 극복하고 반사실을 만들어내는 것이다. 이 때문에 경제학자들은 어떤 값을 취할지 모르는 ‘반사실의 결과’를 어떻게든 타당한 값으로 채우려 한다.
에비던스(과학적 근거)의 단계
인과관계를 시사하는 근거를 의미하는 용어로 경제학, 의학 등에서 많이 사용
강한 에비던스는 인과관계를 정확히 증명할 수 있는 기법을 통해 도출된 것,
약한 에비던스는 인과관계와 상관관계를 오인할 가능성이 있는 기법으로 산출된 것을 가리킴
에비던스 피라미드
RCT(랜덤화 비교 시험)
두 변수의 관계가 인과관계인지 상관관계인지를 밝히는 가장 확실한 방법은 ‘실험’
랜덤화 비교 시험은 ‘실험군이 만약 개입 받지 않았더라면’이라고 가정하는 반사실을 대조군의 데이터로 채우기 위한 실험
‘랜덤’이란 의미는 실험 대상 실험군에 배정될 확률이 모든 실험군에서 100퍼센트 동일한 방식을 이르는 것
선택편향: 사람이 하는 선택의 결과로 연구 대상이 되는 두 그룹의 비교가 불가능해지는 것
‘실험군과 대조군의 차이가 통계적으로 유의미하지 않았다’의 의미
그 차이가 우연에 의한 오차 범위 내에서 설명할 수 있다는 의미. 바꿔 말하면 관찰된 차이가 우연의 산물일 확률이 5퍼센트 이하일 때 ‘통계적으로 유의미하다’고 하며, 두 그룹의 차이는 오차나 우연으로는 설명할 수 없는 ‘의미 있는 차이’라는 이야기가 된다.
5%라는 값의 의미: 많은 사람들이 동전을 던져서 다섯 번 연속 앞면이 나오면 단순한 우연이 아니라 속임수라고 느낀다. 바로 그 감각을 숫자로 산출해낸 값 (125=3.125%\frac{1}{2}^5=3.125\%)
즉, ‘통계적으로 유의미하다’는 말은 이 두 그룹 사이의 차이가 우연일 확률이 동전을 다섯 번 던져서 모두 앞면이 나올 확률만큼 낮다는 의미다.
자연 실험
랜덤화 비교 시험의 에비던스 수준은 높지만, 막상 실시하는 것은 쉽지 않다. 결국 랜덤화 비교 시험과 같은 인위적인 실험이 어려운 경우, 우리는 이미 존재하는 ‘관찰 데이터’를 이용해 인과관계를 분석해야 함
자연 실험: 연구 대상자들이 법률이나 제도의 변경, 자연재해 등 ‘외생적 쇼크’에 의해 마치 RCT처럼 자연적으로 개입을 받는 그룹(실험군)과 그렇지 않은 그룹(대조군)으로 나뉜 상황을 이용, 인과관계를 검증하는 방법
95% 신뢰구간의 의미: 추정치가 95퍼센트 확률로 이 구간 내에 있다는 것을 시사한다. 이는 같은 연구를 100회 반복하는 실험에서 매회 95퍼센트 신뢰 구간을 추정했을 때, 100회 중 95회의 신뢰 구간은 참값을 포함하고 있다는 것을 의미한다.
이중 차분법 (DID)
이중차분법: 개입을 받는 그룹(실험군)과 그렇지 않은 그룹(대조군)의 개입 전후 결과의 차이와, 실험군과 대조군의 차이 이렇게 두 개의 차이로 효과를 추정하는 방법.
DID의 전제 조건
1.
실험군과 대조군은 개입 전 결과의 ‘트렌드’가 같아야(평행해야) 한다. 즉, ‘트렌드’가 비교 가능해야 한다.
적어도 개입 전에는 ‘비교 가능’해야 한다
2.
개입과 같은 타이밍에 결과에 영향을 줄 만한 다른 변화가 실험군과 대조군에 별개로 발생하지 않아야 한다.
추론 방법
실험군과 대조군 각각에서 개입 전과 후, 두 타이밍의 데이터를 수집
첫 번째 차이는 개입 전후의 차이다(이 ‘차이’는 전후 비교설계가 추정하고 있는 효과와 동일하다).
두 번째 차이는 실험군과 대조군의 차이
이 두 개의 차이를 가지고 개입 효과를 추정한다는 의미에서 ‘이중차분법’
안이하게 전후 비교설계를 이용해 정책을 평가하면, 기대한 결과를 얻지 못할 뿐 아니라, 오히려 사회적으로 해악을 끼칠 가능성이 있는 정책을 높이 평가하는 우를 범할 수 있다.
조작 변수법
조작 변수법: ‘원인에 영향을 주는 것을 통해서만 결과에 영향을 주는 조작 변수’를 이용해 개입을 받는 그룹(실험군)과 그렇지 않은 그룹(대조군)을 비교 가능한 상태로 만드는 방법.
조작 변수: ‘결과에는 직접 영향을 주지 않지만 원인에 영향을 줌으로써 간접적으로 결과에 영향을 주는 제3의 변수’
조작 변수법의 전제 조건
1.
조작 변수는 원인에는 영향을 미치지만 결과에는 직접 영향을 주지 않아야 한다.
2.
조작 변수와 결과 모두에 영향을 줄 만한 제4의 변수가 존재하지 않아야 한다.
RD(회귀 불연속 설계)
회귀 불연속 설계란 자의적으로 결정된 컷오프 값을 중심으로 실험군과 대조군으로 갈리는 상황을 이용해 인과 효과를 추정하는 방법
RD의 전제조건
컷오프 값 주변에서 결과에 영향을 줄 만한 다른 이벤트가 발생하지 않아야 한다.
매칭법
매칭법: 결과에 영향을 줄만한 공변량을 이용해 대조군에서 실험군과 매우 흡사한 샘플을 찾아내 매칭시켜 비교하는 방법. 공변량이 복숭리 때는 점수화하여 이용하는 경우도 있다(성향 점수 매칭법)
성향 점수: 복수의 공변량을 종합해 점수화한 것으로, ‘실험군으로 분류될 확률’을 의미
매칭법의 전제조건
1.
결과에 영향을 줄 만한 모든 공변량이 수치화된 데이터로 존재해야 한다.
2.
모든 공변량이 성향 점수 계산에 이용돼야 한다
회귀 분석
회귀 분석: ‘최적선(데이터 간의 거리 합계가 가장 작아지도록 그은 선)’을 통해 인과관계를 분석하는 방법
최적선의 기울기는 원인이 한 단위 증가했을 때 결과가 어느 정도 변화하는지 보여주는 것으로, ‘인과 효과’를 의미
중회귀 분석으로 교란 요인의 영향을 배제(교란 요인 값이 움직이도록 고정함)한 다음 원인과 결과의 관계를 평가할 수 있다. 드물기는 하지만, 만일 모든 교란 요인의 데이터를 갖고 있다면 중회귀 분석으로 확실하게 인과관계를 증명할 수 있다.
인과 추론의 타당성과 한계
내적 타당성: 두 변수 사이에 인과관계가 있을 확률. 즉, 연구 대상이 된 집단에 재차 동일한 개입을 했을 때 같은 결과가 재현되는 정도를 가리킴
외적 타당성: 연구 대상과는 다른 집단에 개입했을 때 같은 결과가 재현되는 정도를 의미
RCT의 한계
비용
외적 타당성
윤리적 문제
랜덤화 분류 실패
RCT에서 확인된 효과(Efficacy)보다 실제로 전체에 도입했을 때의 효과(Effectiveness)가 작음
관찰 데이터를 이용한 연구에서도 1) 우연의 일치가 아님, 2) 교란요인이 없음, 3) 역의 인과관계 없음 세 가지조건의 충족 여부를 주의 깊게 검토해 증명할 수 있다면 강한 에비던스가 될 수 있다.
인과추론의 공통적인 5단계
1.
원인 파악
2.
결과 파악
3.
세가지 체크포인트 확인: 1) 우연의 일치가 아님, 2) 교란요인이 없음, 3) 역의 인과관계 없음
4.
반사실(counterfactual)을 만들어낼 것
5.
비교 가능해지도록 조정할 것
마무리
데이터는 그 자체만으로는 그저 숫자의 나열에 불과하다. 데이터를 ‘어떻게 해석할지’가 매우 중요하다. 상관관계에 불과한 데이터 분석을 인과관계로 오인해버리면 잘못된 판단으로 이어질 수 있다.
“개인의 경험담을 모아 놓은 것은 데이터도 아니고 에비던스도 아닙니다. 우리는 의심의 여지가 없는 데이터를 모으고 있고, 오바마 케어의 효과를 검증하고 있습니다. 그 결과 평균적으로는 미국 국민의 보험료는 오바마 케어로 저렴해진 것으로 나타났습니다. 사람에 따라서는 보험료가 올라 손해를 보고 계신 분도 있을지 모르지만, 그런 개인들의 이야기에 현혹되지 마시고 데이터를 이용해 큰 그림을 볼 수 있도록 해주십시오.”
- 조너선 그루버 교수, 오바마 케어에 관한 심포지엄에서

깨달은 것

에비던스에 근거한 액션을 취하는 것은 효과적인 비즈니스, 정책 운영에 결정적인 역할을 한다. 잘못된 인과 추론에 근거해서 행동할 경우 심각하게는 오히려 나쁜 결과를 가져올 수 있고, 적어도 의도한 결과를 얻지 못하고 시간과 비용을 낭비하게 된다.
상관관계에서 인과관계를 확인하기 위해서는 세 가지 체크포인트를 확인한다:
1) 우연의 일치가 아님, 2) 교란요인이 없음, 3) 역의 인과관계 없음
석사과정 연구에서 많이 활용했던 회귀분석은 에비던스 수준이 가장 낮은 방법이며, RCT는 에비던스 수준이 매우 높은 분석 방법이다.

적용할 것

A/B 테스트(RCT) 및 준실험 방법에 대한 더 구체적인 학습