- R 강좌 : 정책효과 분석 : 이중차분법 DiD, 삼중차분법 DDD 👀 계량경제학 개인 공부용 포스트 글 입니다. 강좌영상 ① 더미변수 ◯ 더미변수 • 남여 임금격차 : Y = α + β•Educ + ϒ•male + u • Y = α + β•Educ + ϒ•male + u Y_m = α + β•Educ + ϒ•1 + u Y_f = α + β•Educ + ϒ•0+ u ----------------------------------------- Y_m - Y_f = ϒ → 해석 : 여성에 비해 남성은 ϒ 만큼 임금을 더 (덜) 받는다. • 로그 차분인 경우에는 상대적 변화율을 의미한다 : lnY = α + β•Educ + ϒ•male + u ↪ lnYm - lnYf = (Ym - Yf)/Yf = 여성대비 남성 임금의 상대적 변화율 = 100•ϒ ↪ 해석 : 여성에 비해 남성은..
- [Causal ML] Causal inference 고려대 산공 세미나 내용정리 • 본문 내용에 대한 출처 ① 상관관계와 인과관계 ◯ 상관관계와 인과관계 • 상관관계 : 통계적 변수와 다른 변수들이 covariance (공변) 하는 관계 ⇨ 예측 목적 • 인과관계 : 선행하는 한 변수가 후행하는 다른 변수의 원인이 되고 있다고 믿어지는 관계 ⇨ 원인설명 목적 • AI 는 데이터의 상관관계 패턴을 학습한다. 외부 환경에 따른 데이터의 변화나 패턴 변화가 적은 분야에서는 상관관계를 학습하는 것만으로도 성능이 뛰어나다 (NLP, vision, collaboration filtering) • 그러나 왜 그러한 결과가 나왔는지에 대해서는 설명하지 못한다. ◯ 예시 • 구독갱신여부를 예측하는 모델링을 진행한 후 SHAP 기반의 변수 중요도를 그려본 그림은 아래와 같다. 광고지출, 버그 리포트,..
- 인과추론의 데이터 과학 - 매칭과 역확률 가중치 참고영상 : Bootcamp 2-4. 매칭과 역확률 가중치 1. Matching • Regression 은 control variable과 selection bias에 대해 linear form으로 가정하고, control variable을 conditioning 함으로써 특성을 유사하게 만들었다면 matching 은 functional form 없이 단순히 control variable에서 특성이 유사한 것들을 직접적으로 매칭하는 방법이다. 훨씬 더 직관적인 방법이라 볼 수 있다. Flexible 한 형태이다. • 즉, 회귀분석과 Matching 은 functional form 을 가정하느냐 안 하느냐의 차이만 존재한다. • Matching 을 하는 방법은 여러 가지가 있는데, 강의에서는 2가지만 소개..
- 인과추론의 데이터 과학 - 이중차분법 참고영상 : Bootcamp 3-3. 이중차분법 DID(Difference-in-Differences)는 quasi-experimental design 중 하나입니다. Quasi-experimental design은 randomized controlled trial(RCT)과 같은 엄격한 실험적 설계가 적용되지 않은 경우를 말합니다. DID는 일반적으로 실제 실험적 조작을 가하지 않는 자연적인 사건, 예를 들어 정책 변화, 자연 재해 등이 발생한 경우를 이용하여 효과를 측정하는 것입니다. DID는 두 개 이상의 그룹을 비교하여 효과를 측정합니다. DID는 시간적으로 서로 다른 두 그룹이 있는 경우에 주로 사용됩니다. 실험 그룹과 대조 그룹의 특성이 서로 다르지 않은 것이 전제되어야 하며, 이를 위해 DI..
- 계량경제학 강의_한치록_다중회귀 11장 👀 계량경제학 개인 공부용 포스트 글입니다. ◯ 더미변수, 상호작용항, 제곱항, 로그 • 상호작용항 : 한 변수의 영향이 다른 변수의 값에 의존할 수 있도록 할 때 상호작용항을 포함시킨다. 대표적인 상호작용항 이용의 예로는 이중차분법 (DiD) 이 있다. DiD 는 정책의 효과를 분석할 때 널리 사용된다. • 제곱항 : 설명변수 증가의 효과가 그 설명변수 값이 증가함에 따라 + 에서 - 으로 바뀌거나 - 에서 + 로 바뀌는 경우 (포물선 모양처럼), 해당 설명변수의 제곱항을 우변에 포함한 모형을 설정할 수 있다. • 로그 : 크기 자체보다는 증가율을 고려하는 거이 적절한 변수의 경우 통상적으로 로그를 취한다. 그러나 0의 값을 가질 수도 있기 때문에 까다로운 상황이 발생할 수 있다. 11. 다중회귀 관련..
728x90