본문 바로가기

분류 전체보기328

인과추론의 데이터 과학 - 구조적 인과모형 참고영상 : Bootcamp 5-3. 구조적 인과모형 1. Structural model ◯ Causal inference = How to address endogeneity • treatment 에 대한 selection process (data generation process) 를 알기 어려운 경우가 많아서, 인과추론이 어려워 지는 것이다. 따라서 이를 해결하기 위한 여러 방법론들이 등장한 것이다. • Design based approach : selection process 를 알 수 있는 research design 을 활용하는 방법 • Selection model : selection process 를 통계적으로 모델링 함으로써 selection process 에서 selection bias .. 2023. 5. 1.
인과추론의 데이터 과학 - 디자인 기반의 인과추론에서의 인과 그래프 활용 참고영상 : Bootcamp 5-2. 디자인 기반의 인과추론에서의 인과그래프 활용 1. Structure-based Research design ◯ 왜 Research design 을 설계하는 것이 중요한가 • 갱년기 호르몬 치료가 자궁암을 유발하는 것에 대한 인과추론 • 연구자들은 기존의 연구결과에 대해 이의를 제기 ↪ 예일대학교 연구 : 호르몬 치료약이 자궁출혈을 야기하고, 따라서 출혈이 있으면 검사를 받는 경우가 많기 때문에 잠복해있던 자궁암을 발견할 가능성이 높다. 즉, 호르몬 치료가 자궁암을 유발하는 것이 아니고, 출혈이 발생하여 검사를 받아보니 잠복했던 자궁암을 발견했다는 주장인 것이다. • 자궁출혈이라는 요인을 통제함으로써 이러한 효과를 배제하고 실제 호르몬 치료가 자궁암 유발에 대한 인과관.. 2023. 5. 1.
인과추론의 데이터 과학 - 인과그래프 참고영상 : Bootcamp 5-1. 인과그래프 ▸ Causal graph : Directed Acyclic graph and Bayesian network 1. Causal graph (diagram) • 인과관계 구조를 그래프로 표현하는 방법 ◯ Directed Acyclic Graph (DAG) • Graph : 각 노드는 각 변수를 뜻하고, 노드들 간의 엣지가 변수들 간의 관계를 나타낸다. • Directed : 엣지에 방향성이 있다는 뜻으로, 원인과 결과의 관계를 나타낸다. • Acyclic : Cyclic 의 반대말로, 순환고리가 없다는 뜻이다. 역인과관계가 성립하지 않는다는 것을 의미한다. ◯ Bayesian Network (Belief Network) • DAG 를 조건부 확률로 도식화한 .. 2023. 4. 28.
4월 넷째주 신문읽기 1️⃣ 산업 🔹 흔들리는 넷플릭스 • 구독자수 증가율이 정체기를 맞으며 계정 공유를 단속하고 광고 요금제를 출시하는 등 대책을 마련 중이다. • 구독자수 증가를 위해 계정공유를 막았던 넷플릭스는 성장이 둔화하자 전 세계로 정책을 확대하는 것을 연기하는 것으로 입장을 바꾸었다. 또한 저렴한 광고요금제를 도입하였다. • 광고요금제의 경우, 한국시장에서는 부정적인 반응을 보였으나, 미국시장에서는 긍정적인 반응을 얻었다. 🔹 K-배터리, 이어지는 투자 • 전기차의 부상으로 전기차 배터리 산업이 급성장하고 있다. 국내 주요 배터리 기업도 연이어 대규모 투자를 발표하며 정부의 지지와 함께 국내 배터리 공장 증설의 흐름이 계속될 전망이다. • 미국 재무부가 발표한 IRA 세부지침이 국내 투자에 가속도를 붙였다. • .. 2023. 4. 28.
인과추론의 데이터 과학 - 통제함수와 선택모형 참고영상 : Bootcamp 4-4. 통제함수와 선택모형 ▸ Control function: selection bias correction method , LATE, 2SLS 와 비슷하게 Instrumental variable 을 활용한다. ▸ Heckman selection model : control function 의 special case 1. Causal inference = How to address Endogeneity ◯ Causal inference • Selection model 과 Causal Graph 는 인과추론의 Researcg design 과 다른 관점을 취하고 있다. • 그러나 LATE 와 selection model 은 모두 IV 를 활용한다. ◯ Second approac.. 2023. 4. 26.
인과추론의 데이터 과학 - 회귀불연속 참고영상 : Bootcamp 4-3. 회귀 불연속 1. RD ◯ Regression Discontinuity • Discontinuous 가 발생하면 그것을 기점으로 인과추론을 진행하는 방법 • Running variable = assignment variable = Forcing variable : Discontinuity 가 발생하는 변수 • RD 에서의 counterfactual : running variable 이 없었을 때를 가정한 추이 (점선) • counterfactual (점선)과 treatment 를 받아서 나온 (실선) 차이가 causal effect 이다. ◯ Example of discontinuity • 음주와 건강/사망 사이의 인과효과 • 미국에서는 법적으로 21세를 기준으로 음.. 2023. 4. 26.
인과추론의 데이터 과학 - 인과추론 관점에서의 도구변수 참고영상 : Bootcamp 4-2. Local Average treatment effect (LATE) 1. IV from perspective of potential outcome ◯ LATE • IV 가 casual effect 에서 어떤 부분을 측정하는 것인지 (인과관계에서 어떤 해석을 갖는 것인지) 직관적인 이해가 조금 어렵다. • 도구변수 분석을 potential outcome framework 에 통합하도록 하는 것이 LATE • LATE 를 가지고, 도구변수 분석을 통해서 우리가 추정하는 causal effect 가 어떤 것인지 분명하게 해석할 수 있게 되었다. 2. IV as a treatment assignment mechanism • Research design : 어떻게 treatm.. 2023. 4. 25.
인과추론의 데이터 과학 - 도구변수 참고영상 : Bootcamp 4-1. Instrumental variable and regression discontinuity 1. 도구변수 ◯ Causal Hierarchy • quasi-experiment design 이 불가능하지만 treatment를 할 수 있는 외생변수가 존재하는 경우 ⇨ instrumental variable 를 사용 • quasi-experiment design 이 가능하고, 처치집단과 통제집단을 관찰할 수 있지만, longitudinal data (=panel data)를 관측할 수 없어 (즉, panel data 가 아님) treatment 가 arbitrary 한 threshold로 적용되는 경우 ⇨ Regression discontinuity을 사용 ◯ Endogen.. 2023. 4. 25.
인과추론의 데이터 과학 - 가상의 통제집단 참고영상 : Bootcamp 3-4. 가상의 통제집단 1. synthetic control vs DID ◯ Synthetic control • synthetic control 은 DID 의 확장버전이나 좀 더 유연한 방법이다. • 매칭이 성립되지 않고, parallel trend 가정이 성립하지 않더라도 적용할 수 있다. • 최근 가장 주목받는 방법론이기도 하다. • control group 을 조합함으로서 가상의 비교가능한 통제집단을 구성할 수 있는 방법이다. 2. Example ◯ 캘리포니아의 담배 규제의 담배 판매량에 미친 효과 • 캘리포니아에서만 1988년에 도입됨, 규제가 도입되지 않은 49개의 다른 주와 비교하고자 하지만, 위의 그림과 같이 parallel trend 를 따르지 않음 ⇨ syn.. 2023. 4. 25.
인과추론의 데이터 과학 - 이중차분법 참고영상 : Bootcamp 3-3. 이중차분법 DID(Difference-in-Differences)는 quasi-experimental design 중 하나입니다. Quasi-experimental design은 randomized controlled trial(RCT)과 같은 엄격한 실험적 설계가 적용되지 않은 경우를 말합니다. DID는 일반적으로 실제 실험적 조작을 가하지 않는 자연적인 사건, 예를 들어 정책 변화, 자연 재해 등이 발생한 경우를 이용하여 효과를 측정하는 것입니다. DID는 두 개 이상의 그룹을 비교하여 효과를 측정합니다. DID는 시간적으로 서로 다른 두 그룹이 있는 경우에 주로 사용됩니다. 실험 그룹과 대조 그룹의 특성이 서로 다르지 않은 것이 전제되어야 하며, 이를 위해 DI.. 2023. 4. 24.
728x90