본문 바로가기

1️⃣ AI•DS158

HMM 기초 개념 정리 - ① 개념, Evaluation ※ 참고링크 ① HMM - Part1 (개념) ◯ 순차 데이터 • 시간에 따라 얻어지는 데이터 • 시간성 특성이 있음 • 예시 ↪ 하나의 제품이 완성품이 될 때까지는 10개의 공정을 거치고, 각 공정별로 여러 설비 종류를 가지고 있음 ↪ 공정을 거치는 것을 시간의 흐름으로 볼 수 있음 • 순차 데이터 인식 예시 ◯ Hidden Markove Model (HMM) • 순차 데이터를 확률적 (Stochasic) 으로 모델링 하는 생성 모델 (Generative model) ◯ Markove Model 이란 • state 로 이루어진 sequence 를 상태 전이 확률 행렬로 표현하는 것 • 상태 전이 확률 행렬 : 상태가 변화하는 것을 확률로 표현 ↪ 상태 전이 확률을 sum 으로 나눠주기 ↪ ex. 비에서.. 2024. 1. 3.
two-way fixed effects model 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ① Two-way fixed effects model ◯ Staggered DiD • 이메일 등록이 고객 참여에 미치는 영향을 분석하는 Task ⇨ 이메일 등록은 유저마다 다른 시점에서 시작하기 때문에 점진적인 이중차분법 (Staggered DiD) 를 적용할 수 있다. ◯ DiD 에 대한 간단한 설명 • 우리가 궁금한 정책의 효과를 검증하기 위해서 정책이 도입된 특정 그룹과 그렇지 않은 그룹의 정책 도입 전후를 비교하는 기법 • 예를들어 모바일 앱에서 업데이트를 하는데 그 효과를 측정하기 위해, 안드로이드 앱에서는 개편을 시작하고 iOS 앱에서는 기존의 정책을 유지하면서 그 차이가 어떻게 변하는지 구할 수 있다. 이때 두 앱.. 2023. 8. 14.
[The Brave and True] 14. Panel data and fixed effects 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 • 패널 데이터 : 여러 기간에 걸쳐 동일한 대상에 대해 측정값이 있는 데이터 • Entity (개체) 를 제어하는 고정효과 모델을 사용해 모든 대상과, 시간이 변하지 않는 변수를 고정할 수 있다. 고정효과 모델은 교란변수를 통제하는 강력하고 설득력있는 방법이다. • 그러나 역인과관계가 있거나 관측되지 않은 교란변수가 시간에 따라 변할 때 고정효과 모델이 인과효과를 도출하기 어려울 수 있다. ① Intro ◯ Panel data • Panel : 여러기간에 걸쳐 동일한 단위 (unit) 을 반복적으로 관찰한 경우 • 패널 데이터는 여러 해에 걸쳐 여러 도시 또는 주에 대한 데이터를 추적할 수 있는 정부 정책 평가에서 .. 2023. 7. 26.
[The Brave and True] 13. Difference-in-Differences 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! https://ysyblog.tistory.com/307 📜 정리 • DID 활용 목적 및 예제 • DID estimator 추정 • Parallel trend 가정 • 집계된 데이터에서의 DID estimator ① DiD 가 필요한 이유 ◯ DiD 가 필요한 상황 • 온라인 마케팅을 사용하면 어떤 고객이 어떤 광고를 보았는지 알 수 있고, 쿠키를 사용해 고객이 방문 페이지에 도달했는지 또는 다운로드 버튼을 클릭했는지 확인할 수 있다. 또한 머신러닝을 이용해 고객과 매우 유사한 잠재 고객을 찾고 해당 고객에게만 광고를 노출시킬 수 있다. 이러한 의미에서 온라인 마케팅은 매우 정확하다. • 반면, 광고판과 TV 광고 같은 경우.. 2023. 7. 20.
[The Brave and True] 12. Doubly Robust Estimation 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 • Doubly robust estimator = 선형회귀 + 경향점수 • 둘 중 하나가 불완전해도 적당한 추정치를 얻을 수 있다. ① Introduction ◯ Doubly Robust Estimation • E[Y|T=1] - E[Y|T=0] | X 를 추정하기 위해 선형회귀, Propensity score weighting 방법을 배웠다. • 이 둘을 결합해서 사용하는 방법이 Doubly Robust Estimation 이다. ◯ 예제 • chapter 11 예제와 동일 • 분석하기 전에 범주형 변수들을 dummy 처리한다. categ = ["ethnicity", "gender", "school_urbanicit.. 2023. 7. 14.
[The Brave and True] 11. Propensity score 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ※ 정리 1 ※ 정리 2 📜 정리 • 성향점수 = Treatment 를 받을 확률 • 성향점수가 있다면 Confounder 를 직접 제어할 필요가 없으며, 성향점수를 통제하는 것만으로 충분하다. ① Example ◯ 주제 • 학생들이 학교에서 성장 마인드셋에 대한 세미나를 참여하고 교육을 받은 학생들이 학업적으로 어떠한 성취가 있었는지 측정하기 위해 세미나 수업을 받은 학생들의 대학생활을 추적한다. ◯ 데이터셋 • school_achievement : 표준화된 성취도 (표준화 됨 = 변수가 표준편차로 측정됨) • success_expect : 자기개발 성공 기대도 (미래 성공에 대한 자체 기대 평가) → 무작위 할당 이전에 측.. 2023. 7. 13.
[The Brave and True] 10. Matching 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ※ 정리 📜 정리 • 회귀 : 데이터를 셀로 분할하고, 각 셀에서 ATE 를 계산한 다음, 셀의 ATE 를 전체 데이터셋에 대한 단일 ATE 로 결합하는 것 • 매칭 estimator ① What is Regression Doing After All? ◯ 회귀분석 • 회귀분석을 적용하면 Treatment group 과 Control group 을 비교할 때, 추가적인 변수들을 제어할 수 있다. 즉, X를 통제함으로써 ATE 를 식별할 수 있다 : (Y0, Y1) ⊥ T | X ⇨ 조건부 독립성 가정 • 회귀분석과 Matching 은 functional form 을 가정하느냐 안 하느냐의 차이만 존재한다. ② The Subcla.. 2023. 7. 11.
[The Brave and True] 9. Non Compliance and LATE 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 도구변수로 추정하는 ATE 는 LATE 이다. • compiler에 대한 LATE 이다. ① Heterogeneous ◯ 도구변수에 대한 반응 종류 • Compliers, Never Takers, Always Takers, Defieres • ex. 신약 효과 테스트를 위해 피실험자는 약물 또는 위약을 할당받는다. Compliers 약물 또는 위약을 거부감 없이 복용하는 집단 Never Takers 할당 받은 약의 복용(Treatment)을 거부 또는 받지 않는 사람 (어떠한 약을 할당받아도 복용하지 않을 사람) Always Takers 약 할당과 별개로 항상 진짜 약물을 복용하는 사람들 Defieres 통제에 할당되.. 2023. 7. 4.
[The Brave and True] 8. Instrumental variables 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 도구변수 • Treatment 변수와 상관관계가 있으면서, Treatment 를 통해서만 결과변수에 영향을 주는 것 • 2SLS 를 사용해 인과효과를 추정 • 약한 도구변수라면 추정이 어려울 수 있다. • 2SLS 는 일관성이 있긴 하지만, 여전히 인과효과를 추정하는데 있어선 편향된 방법이다. ① Going Around Omitted variable bias ◯ Instrumental variables • OVB(Omitted Variable Bias) 를 다루는 방법 중 하나는 생략된 변수를 모델에 추가하는 것이다. 그러나 생략된 변수를 항상 얻을 수 있는 것은 아니기 때문에 문제가 된다. • 도구변수의 아이디어는 .. 2023. 7. 3.
인과추론의 데이터 과학 - 머신러닝의 해석 가능성과 인과추론 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ① Value of Causality • 인과성은 actionable 한 전략을 제공한다. 상관성은 action 으로 이어지기가 어렵다 (e.g. 초콜릿 소비가 많을수록 노벨상 수상자가 많다는 상관관계) • 그러나 실제로 인과성을 도출해내는 것은 매우 어려움 (Prediction 도 마찬가지) ↪ 실제 세상은 매우 복잡하며 dynamic 한 system 으로 동작한다. 하지만 분석을 할 때는 이런 dynamic 한 특성을 없애고 static 한 가정에서 진행하기 때문에 관점이 제한적일 수 있다. • 또한 데이터가 완전하지 않다. (imperfect and proxy - e.g. 행복지수) • 비즈니스는 Causal law 를 .. 2023. 6. 29.
728x90