본문 바로가기

1️⃣ AI•DS152

인과추론의 데이터 과학_2023 - week2. RCT 📔 강의자료 필기본 ① Potential Outcome Framework ▢ Potential Outcome Framework • counterfactual : 해당 treatment 가 없었다면 어떠했을까 • Causal effect = (Actual outcome for treated if treated) – (Potential outcome for treated if not treated) ▢ Fundamental Problem of Causal Inference : Selection Bias • 현실에서는 잠재적 결과를 관측할 수 없다. 하나의 대상에 대해서는 오직 하나의 상태만 관찰할 수 있다 • 현실에선 Control group (treatment 를 받지 않은 그룹) 만 관찰 가능하다. • .. 2024. 1. 9.
HMM 기본 코드/응용사례 정리 ① 개념 보충 ◯ Markov chain • HMM 은 마르코프 체인을 확장한 모델이다. • 마르코프 연쇄는 마르코프 성질을 가진 이산확률과정 (discrete-time stochastic process) 을 의미한다. 시간에 따른 시스템 상태의 변화를 타나내며 이를 전이 Transition 이라고 부른다. • 마르코프 성질 : 미래의 상태는 오직 현재의 상태 혹은 더 이전의 일정기간에만 영향을 받는다. 미래의 어떤 상태를 예측하기 위해 과거의 긴 이력을 필요로 하지 않는 성질을 의미한다. 즉, 과거와 현재 상태가 주어졌을 때의 미래 상태 조건부 확률 분포는 과거 상태와는 독립적으로 현재 상태에 의해서만 결정된다. • 이산확률과정 : 시간이 연속적으로 변하지 않고, 이산적으로 변하며 (현재 상태에서 그냥.. 2024. 1. 5.
인과추론의 데이터 과학_2023 - week1. 빅데이터, AI 시대에서의 인과추론 📔 강의자료 필기본 ① Credibility Revolution ▢ Causal inference • observational data 로부터 특정한 현상의 인과관계를 밝혀내는 것 • Econometrics : 데이터 분석을 통해 경제 현상을 분석하고 이론을 테스트 하는 분야 • 인과추론은 모형을 어떻게 정의하느냐 보다, 잘 설계된 Research design 이 더 중요하다. • Experimental approaches Example ∘ RCT ∘ Quasi-experiments - DiD, Instrumental variables, Fixed effects, RD, Matching, Synthetic control) ② Challenges in Causal inference ▢ Correlation.. 2024. 1. 5.
HMM 기초 개념 정리 - ② Decoding, Learning ※ 참고링크 ① HMM - Part2 (Decoding) ◯ Decoding Problem → HMM 의 핵심 ▢ Decoding 문제 정의 • Problem : HMM(λ*) 과 O 가 주어졌을 때, 최적의 S 를 찾는 것 (가장 그럴싸한 은닉상태의 시퀀스 결정) • Solution : Viterbi algorithm • ex. 정 박사가 오늘 산책, 내일 산책, 모레 연구, 글피 쇼핑했다면, 각 날들 날씨는 ? ▢ Viterbi algorithm • vt(i) : t 번째 시점의 i 은닉상태의 확률 [t=1 에서의 계산] • v1(1) = (S1이 t=1에서 발생할 확률) • (S1 은닉상태에서 산책이 관찰될 확률) = π1•b1(산책) • v1(2) = (S2가 t=1에서 발생할 확률) • (S2 .. 2024. 1. 4.
HMM 기초 개념 정리 - ① 개념, Evaluation ※ 참고링크 ① HMM - Part1 (개념) ◯ 순차 데이터 • 시간에 따라 얻어지는 데이터 • 시간성 특성이 있음 • 예시 ↪ 하나의 제품이 완성품이 될 때까지는 10개의 공정을 거치고, 각 공정별로 여러 설비 종류를 가지고 있음 ↪ 공정을 거치는 것을 시간의 흐름으로 볼 수 있음 • 순차 데이터 인식 예시 ◯ Hidden Markove Model (HMM) • 순차 데이터를 확률적 (Stochasic) 으로 모델링 하는 생성 모델 (Generative model) ◯ Markove Model 이란 • state 로 이루어진 sequence 를 상태 전이 확률 행렬로 표현하는 것 • 상태 전이 확률 행렬 : 상태가 변화하는 것을 확률로 표현 ↪ 상태 전이 확률을 sum 으로 나눠주기 ↪ ex. 비에서.. 2024. 1. 3.
two-way fixed effects model 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ① Two-way fixed effects model ◯ Staggered DiD • 이메일 등록이 고객 참여에 미치는 영향을 분석하는 Task ⇨ 이메일 등록은 유저마다 다른 시점에서 시작하기 때문에 점진적인 이중차분법 (Staggered DiD) 를 적용할 수 있다. ◯ DiD 에 대한 간단한 설명 • 우리가 궁금한 정책의 효과를 검증하기 위해서 정책이 도입된 특정 그룹과 그렇지 않은 그룹의 정책 도입 전후를 비교하는 기법 • 예를들어 모바일 앱에서 업데이트를 하는데 그 효과를 측정하기 위해, 안드로이드 앱에서는 개편을 시작하고 iOS 앱에서는 기존의 정책을 유지하면서 그 차이가 어떻게 변하는지 구할 수 있다. 이때 두 앱.. 2023. 8. 14.
[The Brave and True] 14. Panel data and fixed effects 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 • 패널 데이터 : 여러 기간에 걸쳐 동일한 대상에 대해 측정값이 있는 데이터 • Entity (개체) 를 제어하는 고정효과 모델을 사용해 모든 대상과, 시간이 변하지 않는 변수를 고정할 수 있다. 고정효과 모델은 교란변수를 통제하는 강력하고 설득력있는 방법이다. • 그러나 역인과관계가 있거나 관측되지 않은 교란변수가 시간에 따라 변할 때 고정효과 모델이 인과효과를 도출하기 어려울 수 있다. ① Intro ◯ Panel data • Panel : 여러기간에 걸쳐 동일한 단위 (unit) 을 반복적으로 관찰한 경우 • 패널 데이터는 여러 해에 걸쳐 여러 도시 또는 주에 대한 데이터를 추적할 수 있는 정부 정책 평가에서 .. 2023. 7. 26.
[The Brave and True] 13. Difference-in-Differences 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! https://ysyblog.tistory.com/307 📜 정리 • DID 활용 목적 및 예제 • DID estimator 추정 • Parallel trend 가정 • 집계된 데이터에서의 DID estimator ① DiD 가 필요한 이유 ◯ DiD 가 필요한 상황 • 온라인 마케팅을 사용하면 어떤 고객이 어떤 광고를 보았는지 알 수 있고, 쿠키를 사용해 고객이 방문 페이지에 도달했는지 또는 다운로드 버튼을 클릭했는지 확인할 수 있다. 또한 머신러닝을 이용해 고객과 매우 유사한 잠재 고객을 찾고 해당 고객에게만 광고를 노출시킬 수 있다. 이러한 의미에서 온라인 마케팅은 매우 정확하다. • 반면, 광고판과 TV 광고 같은 경우.. 2023. 7. 20.
[The Brave and True] 12. Doubly Robust Estimation 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 • Doubly robust estimator = 선형회귀 + 경향점수 • 둘 중 하나가 불완전해도 적당한 추정치를 얻을 수 있다. ① Introduction ◯ Doubly Robust Estimation • E[Y|T=1] - E[Y|T=0] | X 를 추정하기 위해 선형회귀, Propensity score weighting 방법을 배웠다. • 이 둘을 결합해서 사용하는 방법이 Doubly Robust Estimation 이다. ◯ 예제 • chapter 11 예제와 동일 • 분석하기 전에 범주형 변수들을 dummy 처리한다. categ = ["ethnicity", "gender", "school_urbanicit.. 2023. 7. 14.
[The Brave and True] 11. Propensity score 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ※ 정리 1 ※ 정리 2 📜 정리 • 성향점수 = Treatment 를 받을 확률 • 성향점수가 있다면 Confounder 를 직접 제어할 필요가 없으며, 성향점수를 통제하는 것만으로 충분하다. ① Example ◯ 주제 • 학생들이 학교에서 성장 마인드셋에 대한 세미나를 참여하고 교육을 받은 학생들이 학업적으로 어떠한 성취가 있었는지 측정하기 위해 세미나 수업을 받은 학생들의 대학생활을 추적한다. ◯ 데이터셋 • school_achievement : 표준화된 성취도 (표준화 됨 = 변수가 표준편차로 측정됨) • success_expect : 자기개발 성공 기대도 (미래 성공에 대한 자체 기대 평가) → 무작위 할당 이전에 측.. 2023. 7. 13.
728x90