본문 바로가기

1️⃣ AI•DS176

[Causal ML] 강연자료 정리 ◯ Causal representation learning 출처 • 복잡한 학습 모델의 특성에 대해 이해하기 위해 최근 딥러닝 분야에서 인과추론에 대한 관심이 높아지고 있다. • causality 를 활용한다면 관찰된 상황과 다른 환경에서도 robust 한 예측을 할 수 있으며 데이터 사이의 인과관계도 파악할 수 있기 때문에 causality 관점이 반드시 필요하다. causality 를 통해 ML 의 한계점을 극복할 수 있다. • 딥러닝 창시자 요슈아 벤지오는 AI 를 개발할 때 인지능력을 더한다면 머신러닝과 관련된 문제들이 설명 가능하게 될 것이라 전망했다. 사람이 의식하는 인지능력을 실현할 수 있는 새로운 학습 모델이 필요하다며 인과학습의 중요성을 언급했다. ◯ Causal machine learn.. 2023. 5. 6.
인과추론의 데이터 과학 - 구조적 인과모형을 활용한 인과추론 결과의 다른 집단으로의 적용 참고영상 : Bootcamp 5-4. Transporting • Transporting Causal effects across populations using structural causal modeling: the example of work-from-home productivity • 연구동기 : 인과관계 추론을 위해서 가장 타당하다고 여겨지는 방법은 RCT 를 이용한 추론이다. 관심있는 부분이 인과효과라면, 외부 요인들을 통제함으로써 추론의 타당성을 얻을 수 있다. 그러나 실험의 결과를 또 다른 세팅에 적용했을 때 그것이 무조건 타당하진 않다. 그러나 연구자들은 연구 결과를 좀 더 general 하게 사용하고 싶어한다. 1. Motivation: types of external validity (외.. 2023. 5. 4.
인과추론의 데이터 과학 - 구조적 인과모형 참고영상 : Bootcamp 5-3. 구조적 인과모형 1. Structural model ◯ Causal inference = How to address endogeneity • treatment 에 대한 selection process (data generation process) 를 알기 어려운 경우가 많아서, 인과추론이 어려워 지는 것이다. 따라서 이를 해결하기 위한 여러 방법론들이 등장한 것이다. • Design based approach : selection process 를 알 수 있는 research design 을 활용하는 방법 • Selection model : selection process 를 통계적으로 모델링 함으로써 selection process 에서 selection bias .. 2023. 5. 1.
인과추론의 데이터 과학 - 디자인 기반의 인과추론에서의 인과 그래프 활용 참고영상 : Bootcamp 5-2. 디자인 기반의 인과추론에서의 인과그래프 활용 1. Structure-based Research design ◯ 왜 Research design 을 설계하는 것이 중요한가 • 갱년기 호르몬 치료가 자궁암을 유발하는 것에 대한 인과추론 • 연구자들은 기존의 연구결과에 대해 이의를 제기 ↪ 예일대학교 연구 : 호르몬 치료약이 자궁출혈을 야기하고, 따라서 출혈이 있으면 검사를 받는 경우가 많기 때문에 잠복해있던 자궁암을 발견할 가능성이 높다. 즉, 호르몬 치료가 자궁암을 유발하는 것이 아니고, 출혈이 발생하여 검사를 받아보니 잠복했던 자궁암을 발견했다는 주장인 것이다. • 자궁출혈이라는 요인을 통제함으로써 이러한 효과를 배제하고 실제 호르몬 치료가 자궁암 유발에 대한 인과관.. 2023. 5. 1.
인과추론의 데이터 과학 - 인과그래프 참고영상 : Bootcamp 5-1. 인과그래프 ▸ Causal graph : Directed Acyclic graph and Bayesian network 1. Causal graph (diagram) • 인과관계 구조를 그래프로 표현하는 방법 ◯ Directed Acyclic Graph (DAG) • Graph : 각 노드는 각 변수를 뜻하고, 노드들 간의 엣지가 변수들 간의 관계를 나타낸다. • Directed : 엣지에 방향성이 있다는 뜻으로, 원인과 결과의 관계를 나타낸다. • Acyclic : Cyclic 의 반대말로, 순환고리가 없다는 뜻이다. 역인과관계가 성립하지 않는다는 것을 의미한다. ◯ Bayesian Network (Belief Network) • DAG 를 조건부 확률로 도식화한 .. 2023. 4. 28.
인과추론의 데이터 과학 - 통제함수와 선택모형 참고영상 : Bootcamp 4-4. 통제함수와 선택모형 ▸ Control function: selection bias correction method , LATE, 2SLS 와 비슷하게 Instrumental variable 을 활용한다. ▸ Heckman selection model : control function 의 special case 1. Causal inference = How to address Endogeneity ◯ Causal inference • Selection model 과 Causal Graph 는 인과추론의 Researcg design 과 다른 관점을 취하고 있다. • 그러나 LATE 와 selection model 은 모두 IV 를 활용한다. ◯ Second approac.. 2023. 4. 26.
인과추론의 데이터 과학 - 회귀불연속 참고영상 : Bootcamp 4-3. 회귀 불연속 1. RD ◯ Regression Discontinuity • Discontinuous 가 발생하면 그것을 기점으로 인과추론을 진행하는 방법 • Running variable = assignment variable = Forcing variable : Discontinuity 가 발생하는 변수 • RD 에서의 counterfactual : running variable 이 없었을 때를 가정한 추이 (점선) • counterfactual (점선)과 treatment 를 받아서 나온 (실선) 차이가 causal effect 이다. ◯ Example of discontinuity • 음주와 건강/사망 사이의 인과효과 • 미국에서는 법적으로 21세를 기준으로 음.. 2023. 4. 26.
인과추론의 데이터 과학 - 인과추론 관점에서의 도구변수 참고영상 : Bootcamp 4-2. Local Average treatment effect (LATE) 1. IV from perspective of potential outcome ◯ LATE • IV 가 casual effect 에서 어떤 부분을 측정하는 것인지 (인과관계에서 어떤 해석을 갖는 것인지) 직관적인 이해가 조금 어렵다. • 도구변수 분석을 potential outcome framework 에 통합하도록 하는 것이 LATE • LATE 를 가지고, 도구변수 분석을 통해서 우리가 추정하는 causal effect 가 어떤 것인지 분명하게 해석할 수 있게 되었다. 2. IV as a treatment assignment mechanism • Research design : 어떻게 treatm.. 2023. 4. 25.
인과추론의 데이터 과학 - 도구변수 참고영상 : Bootcamp 4-1. Instrumental variable and regression discontinuity 1. 도구변수 ◯ Causal Hierarchy • quasi-experiment design 이 불가능하지만 treatment를 할 수 있는 외생변수가 존재하는 경우 ⇨ instrumental variable 를 사용 • quasi-experiment design 이 가능하고, 처치집단과 통제집단을 관찰할 수 있지만, longitudinal data (=panel data)를 관측할 수 없어 (즉, panel data 가 아님) treatment 가 arbitrary 한 threshold로 적용되는 경우 ⇨ Regression discontinuity을 사용 ◯ Endogen.. 2023. 4. 25.
인과추론의 데이터 과학 - 가상의 통제집단 참고영상 : Bootcamp 3-4. 가상의 통제집단 1. synthetic control vs DID ◯ Synthetic control • synthetic control 은 DID 의 확장버전이나 좀 더 유연한 방법이다. • 매칭이 성립되지 않고, parallel trend 가정이 성립하지 않더라도 적용할 수 있다. • 최근 가장 주목받는 방법론이기도 하다. • control group 을 조합함으로서 가상의 비교가능한 통제집단을 구성할 수 있는 방법이다. 2. Example ◯ 캘리포니아의 담배 규제의 담배 판매량에 미친 효과 • 캘리포니아에서만 1988년에 도입됨, 규제가 도입되지 않은 49개의 다른 주와 비교하고자 하지만, 위의 그림과 같이 parallel trend 를 따르지 않음 ⇨ syn.. 2023. 4. 25.
728x90