분류 전체보기328 [The Brave and True] 11. Propensity score 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ※ 정리 1 ※ 정리 2 📜 정리 • 성향점수 = Treatment 를 받을 확률 • 성향점수가 있다면 Confounder 를 직접 제어할 필요가 없으며, 성향점수를 통제하는 것만으로 충분하다. ① Example ◯ 주제 • 학생들이 학교에서 성장 마인드셋에 대한 세미나를 참여하고 교육을 받은 학생들이 학업적으로 어떠한 성취가 있었는지 측정하기 위해 세미나 수업을 받은 학생들의 대학생활을 추적한다. ◯ 데이터셋 • school_achievement : 표준화된 성취도 (표준화 됨 = 변수가 표준편차로 측정됨) • success_expect : 자기개발 성공 기대도 (미래 성공에 대한 자체 기대 평가) → 무작위 할당 이전에 측.. 2023. 7. 13. [The Brave and True] 10. Matching 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ※ 정리 📜 정리 • 회귀 : 데이터를 셀로 분할하고, 각 셀에서 ATE 를 계산한 다음, 셀의 ATE 를 전체 데이터셋에 대한 단일 ATE 로 결합하는 것 • 매칭 estimator ① What is Regression Doing After All? ◯ 회귀분석 • 회귀분석을 적용하면 Treatment group 과 Control group 을 비교할 때, 추가적인 변수들을 제어할 수 있다. 즉, X를 통제함으로써 ATE 를 식별할 수 있다 : (Y0, Y1) ⊥ T | X ⇨ 조건부 독립성 가정 • 회귀분석과 Matching 은 functional form 을 가정하느냐 안 하느냐의 차이만 존재한다. ② The Subcla.. 2023. 7. 11. 7월 첫째주 신문읽기 1️⃣ 산업 🔹 애플 기업 가치, 프랑스 GDP 넘다 • 애플이 시가총액 3조 달러를 넘은 최초의 회사가 되었다. 안정적인 재무 성적과 신제품 공개 덕분으로 보고 있다. 3조 달러는 세계 6~7위 GDP 에 맞먹는 규모이다. • 애플이 지난달에 공개한 신제품 '비전 프로' 에 대한 기대감도 크다. 애플은 현재 흥행하고 있는 생성형 AI 에 대한 뚜렷한 관심을 밝히지 않은 대신, VR 시장에 도전을 내밀었다. 🔹 일론머스크, 트위터 유료화 • (생성 AI 훈련 목적의) 데이터 무단 수집을 방지하고 유료 서비스 이용을 유도하기 위해, 트위터 이용자의 하루 열람 게시물 분량을 제한할 계획을 발표했다. • 무료 SNS 였던 트위터가 점점 유료화 되면서, 트위터의 대체재를 찾는 사람이 증가했다. 메타는 '스레드'.. 2023. 7. 7. [The Brave and True] 9. Non Compliance and LATE 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 도구변수로 추정하는 ATE 는 LATE 이다. • compiler에 대한 LATE 이다. ① Heterogeneous ◯ 도구변수에 대한 반응 종류 • Compliers, Never Takers, Always Takers, Defieres • ex. 신약 효과 테스트를 위해 피실험자는 약물 또는 위약을 할당받는다. Compliers 약물 또는 위약을 거부감 없이 복용하는 집단 Never Takers 할당 받은 약의 복용(Treatment)을 거부 또는 받지 않는 사람 (어떠한 약을 할당받아도 복용하지 않을 사람) Always Takers 약 할당과 별개로 항상 진짜 약물을 복용하는 사람들 Defieres 통제에 할당되.. 2023. 7. 4. [The Brave and True] 8. Instrumental variables 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 도구변수 • Treatment 변수와 상관관계가 있으면서, Treatment 를 통해서만 결과변수에 영향을 주는 것 • 2SLS 를 사용해 인과효과를 추정 • 약한 도구변수라면 추정이 어려울 수 있다. • 2SLS 는 일관성이 있긴 하지만, 여전히 인과효과를 추정하는데 있어선 편향된 방법이다. ① Going Around Omitted variable bias ◯ Instrumental variables • OVB(Omitted Variable Bias) 를 다루는 방법 중 하나는 생략된 변수를 모델에 추가하는 것이다. 그러나 생략된 변수를 항상 얻을 수 있는 것은 아니기 때문에 문제가 된다. • 도구변수의 아이디어는 .. 2023. 7. 3. [DiD, Matching] Popularity or Proximity 👀 Keyword ◯ Quasi-experimental research design • DiD • DDD • Probit model • Hazard model ◯ Matching • CEM : 단순하게 통제변수들이 비슷한 관측치끼리 매칭하는 방법 • PSM : 통제 변수가 주어진 상태에서 Treatment 를 받을 확률 (Propensity score) 이 비슷한 관측치끼리 매칭 • EDM : 유클리디안 거리를 기준으로 매칭 👀 데이터 해석을 위한 도메인 지식 ◯ The hype machine • Largest MP3 blog aggregator 로 블로그에 포스팅 된 음악/트랙 리스트들을 수집하여 관련 정보를 제공한다. 유저들은 음악을 스트리밍 할 수 잇으며, 음악 다운로드는 불가능하다. • 연구를 진.. 2023. 7. 2. 6월 넷째주 신문읽기 1️⃣ 산업 🔹 카카오 계열사 구조조정 • 주요 계열사 (카카오엔터프라이즈 등) 의 실력 부진이 이어지며 계열사 간 인력 재배치에 시동을 걸었다. • 카카오 엔터프라이즈는 B2B AI 솔루션을 개발하는 계열사로 작년 1400억원 가량 영업 손실을 기록하고 1분기에도 300억원 대 적자를 기록했다. 🔹 KT, 하반기에 초거대 AI '믿음' 공개 • KT 가 자체 AI 모델인 Mi:dm 을 하반기에 공개할 예정이다. 금융부터 미디어까지 다양한 서비스 (AI 로봇, AI 케어, AI 교육 등) 에 접목할 수 있는 초거대 AI 에 해당한다. 중요한 목표로는 '인간에게 공감할 수 있는 AI' 를 내세우는 것이다. • KT 는 믿음이 국외에 유출될 우려가 없는 신뢰할 수 있는 B2B 맞춤형 AI 모델이라는 점을 강.. 2023. 6. 30. 인과추론의 데이터 과학 - 머신러닝의 해석 가능성과 인과추론 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ① Value of Causality • 인과성은 actionable 한 전략을 제공한다. 상관성은 action 으로 이어지기가 어렵다 (e.g. 초콜릿 소비가 많을수록 노벨상 수상자가 많다는 상관관계) • 그러나 실제로 인과성을 도출해내는 것은 매우 어려움 (Prediction 도 마찬가지) ↪ 실제 세상은 매우 복잡하며 dynamic 한 system 으로 동작한다. 하지만 분석을 할 때는 이런 dynamic 한 특성을 없애고 static 한 가정에서 진행하기 때문에 관점이 제한적일 수 있다. • 또한 데이터가 완전하지 않다. (imperfect and proxy - e.g. 행복지수) • 비즈니스는 Causal law 를 .. 2023. 6. 29. [The Brave and True] 7. Beyond Confounders 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! 📜 정리 ① 포함해야 되는 변수 • Treatment 를 예측하지 않더라도 Outcome 에 대해 좋은 예측을 하는 변수 (⁂ Y를 예측하면 분산이 낮아지고 인과관계를 추정할 때 통계적으로 유의한 결과가 나타날 가능성이 높아지기 때문) • 교란 요인 ② 포함시키면 안되는 변수 • Treatment 를 예측하지만 Outcome 을 예측하지 않는 변수 (⁂ treatment의 변동성을 줄여 인과효과를 찾기 어렵게 만들기 때문) • Treatment 와 outcome 사이의 매개변수 • Treatment 와 outcome 의 공통효과인 변수 ① Good controls ◯ 통제변수 • 통제변수가 Confounder 인 경우 모형에 .. 2023. 6. 29. [The Brave and True] 6. Grouped and Dummy Regression 👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요! ① 그룹화된 데이터를 사용한 회귀 ◯ 이분산성 • 분산이 낮은 영역과 높은 영역을 동시에 갖는 현상, 즉 변수의 모든 값에서 분산이 일정하지 않은 경우다. • 분산이 달라지는 가장 일반적인 이유는 그룹화된 데이터 때문이다. ◯ smf.ols 와 smf.wls 차이 • smf.ols : OLS 회귀모델을 구축하는데 사용된다. • smf.wls : 최소자승법의 변형으로 잔차의 가중치를 고려해 모델을 적합시킨다. 가중치는 각 데이터 포인트의 중요도를 나타내며, 특정 데이터 포인트에 더 큰 가중치를 부여해 모델이 해당 포인트에 더 적합하게 만든다. 오차의 분산이 다른 경우나 이상치에 덜 민감한 모델을 구축하고자 할 때 유용하다. ◯ .. 2023. 6. 28. 이전 1 ··· 7 8 9 10 11 12 13 ··· 33 다음 728x90