๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

1๏ธโƒฃ AI•DS/๐Ÿ“™ Model4

HMM ๊ธฐ๋ณธ ์ฝ”๋“œ/์‘์šฉ์‚ฌ๋ก€ ์ •๋ฆฌ โ‘  ๊ฐœ๋… ๋ณด์ถฉ โ—ฏ Markov chain • HMM ์€ ๋งˆ๋ฅด์ฝ”ํ”„ ์ฒด์ธ์„ ํ™•์žฅํ•œ ๋ชจ๋ธ์ด๋‹ค. • ๋งˆ๋ฅด์ฝ”ํ”„ ์—ฐ์‡„๋Š” ๋งˆ๋ฅด์ฝ”ํ”„ ์„ฑ์งˆ์„ ๊ฐ€์ง„ ์ด์‚ฐํ™•๋ฅ ๊ณผ์ • (discrete-time stochastic process) ์„ ์˜๋ฏธํ•œ๋‹ค. ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์‹œ์Šคํ…œ ์ƒํƒœ์˜ ๋ณ€ํ™”๋ฅผ ํƒ€๋‚˜๋‚ด๋ฉฐ ์ด๋ฅผ ์ „์ด Transition ์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. • ๋งˆ๋ฅด์ฝ”ํ”„ ์„ฑ์งˆ : ๋ฏธ๋ž˜์˜ ์ƒํƒœ๋Š” ์˜ค์ง ํ˜„์žฌ์˜ ์ƒํƒœ ํ˜น์€ ๋” ์ด์ „์˜ ์ผ์ •๊ธฐ๊ฐ„์—๋งŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค. ๋ฏธ๋ž˜์˜ ์–ด๋–ค ์ƒํƒœ๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด ๊ณผ๊ฑฐ์˜ ๊ธด ์ด๋ ฅ์„ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š๋Š” ์„ฑ์งˆ์„ ์˜๋ฏธํ•œ๋‹ค. ์ฆ‰, ๊ณผ๊ฑฐ์™€ ํ˜„์žฌ ์ƒํƒœ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ์˜ ๋ฏธ๋ž˜ ์ƒํƒœ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ๋ถ„ํฌ๋Š” ๊ณผ๊ฑฐ ์ƒํƒœ์™€๋Š” ๋…๋ฆฝ์ ์œผ๋กœ ํ˜„์žฌ ์ƒํƒœ์— ์˜ํ•ด์„œ๋งŒ ๊ฒฐ์ •๋œ๋‹ค. • ์ด์‚ฐํ™•๋ฅ ๊ณผ์ • : ์‹œ๊ฐ„์ด ์—ฐ์†์ ์œผ๋กœ ๋ณ€ํ•˜์ง€ ์•Š๊ณ , ์ด์‚ฐ์ ์œผ๋กœ ๋ณ€ํ•˜๋ฉฐ (ํ˜„์žฌ ์ƒํƒœ์—์„œ ๊ทธ๋ƒฅ.. 2024. 1. 5.
HMM ๊ธฐ์ดˆ ๊ฐœ๋… ์ •๋ฆฌ - โ‘ก Decoding, Learning โ€ป ์ฐธ๊ณ ๋งํฌ โ‘  HMM - Part2 (Decoding) โ—ฏ Decoding Problem → HMM ์˜ ํ•ต์‹ฌ โ–ข Decoding ๋ฌธ์ œ ์ •์˜ • Problem : HMM(λ*) ๊ณผ O ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ์ตœ์ ์˜ S ๋ฅผ ์ฐพ๋Š” ๊ฒƒ (๊ฐ€์žฅ ๊ทธ๋Ÿด์‹ธํ•œ ์€๋‹‰์ƒํƒœ์˜ ์‹œํ€€์Šค ๊ฒฐ์ •) • Solution : Viterbi algorithm • ex. ์ • ๋ฐ•์‚ฌ๊ฐ€ ์˜ค๋Š˜ ์‚ฐ์ฑ…, ๋‚ด์ผ ์‚ฐ์ฑ…, ๋ชจ๋ ˆ ์—ฐ๊ตฌ, ๊ธ€ํ”ผ ์‡ผํ•‘ํ–ˆ๋‹ค๋ฉด, ๊ฐ ๋‚ ๋“ค ๋‚ ์”จ๋Š” ? โ–ข Viterbi algorithm • vt(i) : t ๋ฒˆ์งธ ์‹œ์ ์˜ i ์€๋‹‰์ƒํƒœ์˜ ํ™•๋ฅ  [t=1 ์—์„œ์˜ ๊ณ„์‚ฐ] • v1(1) = (S1์ด t=1์—์„œ ๋ฐœ์ƒํ•  ํ™•๋ฅ ) • (S1 ์€๋‹‰์ƒํƒœ์—์„œ ์‚ฐ์ฑ…์ด ๊ด€์ฐฐ๋  ํ™•๋ฅ ) = π1•b1(์‚ฐ์ฑ…) • v1(2) = (S2๊ฐ€ t=1์—์„œ ๋ฐœ์ƒํ•  ํ™•๋ฅ ) • (S2 .. 2024. 1. 4.
HMM ๊ธฐ์ดˆ ๊ฐœ๋… ์ •๋ฆฌ - โ‘  ๊ฐœ๋…, Evaluation โ€ป ์ฐธ๊ณ ๋งํฌ โ‘  HMM - Part1 (๊ฐœ๋…) โ—ฏ ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ • ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์–ป์–ด์ง€๋Š” ๋ฐ์ดํ„ฐ • ์‹œ๊ฐ„์„ฑ ํŠน์„ฑ์ด ์žˆ์Œ • ์˜ˆ์‹œ โ†ช ํ•˜๋‚˜์˜ ์ œํ’ˆ์ด ์™„์„ฑํ’ˆ์ด ๋  ๋•Œ๊นŒ์ง€๋Š” 10๊ฐœ์˜ ๊ณต์ •์„ ๊ฑฐ์น˜๊ณ , ๊ฐ ๊ณต์ •๋ณ„๋กœ ์—ฌ๋Ÿฌ ์„ค๋น„ ์ข…๋ฅ˜๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Œ โ†ช ๊ณต์ •์„ ๊ฑฐ์น˜๋Š” ๊ฒƒ์„ ์‹œ๊ฐ„์˜ ํ๋ฆ„์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Œ • ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ ์ธ์‹ ์˜ˆ์‹œ โ—ฏ Hidden Markove Model (HMM) • ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ฅ ์  (Stochasic) ์œผ๋กœ ๋ชจ๋ธ๋ง ํ•˜๋Š” ์ƒ์„ฑ ๋ชจ๋ธ (Generative model) โ—ฏ Markove Model ์ด๋ž€ • state ๋กœ ์ด๋ฃจ์–ด์ง„ sequence ๋ฅผ ์ƒํƒœ ์ „์ด ํ™•๋ฅ  ํ–‰๋ ฌ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ • ์ƒํƒœ ์ „์ด ํ™•๋ฅ  ํ–‰๋ ฌ : ์ƒํƒœ๊ฐ€ ๋ณ€ํ™”ํ•˜๋Š” ๊ฒƒ์„ ํ™•๋ฅ ๋กœ ํ‘œํ˜„ โ†ช ์ƒํƒœ ์ „์ด ํ™•๋ฅ ์„ sum ์œผ๋กœ ๋‚˜๋ˆ ์ฃผ๊ธฐ โ†ช ex. ๋น„์—์„œ.. 2024. 1. 3.
Tabnet 0๏ธโƒฃ Tabnet Tree ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ๋ณ€์ˆ˜ ์„ ํƒ ํŠน์ง•์„ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ์— ๋ฐ˜์˜ํ•œ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ 1๏ธโƒฃ ๋ฐฐ๊ฒฝ โœ” ๊ธฐ์กด ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€, ์Œ์„ฑ, ์–ธ์–ด์™€ ๊ฐ™์€ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ์—๋งŒ ์ ์šฉ๋˜์—ˆ์Œ โœ” ์ •ํ˜• ๋ฐ์ดํ„ฐ Tabular Data ๋Š” ์ตœ๊ทผ๊นŒ์ง€๋„ kaggle ๊ฐ™์€ ์—ฌ๋Ÿฌ ๋Œ€ํšŒ์—์„œ XGBoost, LightGBM, CatBoost์™€๊ฐ™์€ Tree๊ธฐ๋ฐ˜์˜ ์•™์ƒ๋ธ” ๋ชจ๋ธ์„ ์ฃผ๋กœ ์‚ฌ์šฉํ–ˆ์Œ ๐Ÿ‘€ ๋”ฅ๋Ÿฌ๋‹์˜ ์ ์ง„์  ํ•™์Šต ํŠน์„ฑ + ์‚ฌ์ „ํ•™์Šต ๊ฐ€๋Šฅ์„ฑ์€ ์ƒˆ๋กœ์šด ๋ถ„์„ ๊ธฐํšŒ๋ฅผ ๋„์ถœ ๐Ÿ‘€ ํŠธ๋ฆฌ๊ธฐ๋ฐ˜ ๋ชจ๋ธ + ์‹ ๊ฒฝ๋ง ๋ชจ๋ธ ๊ตฌ์กฐ ์˜ ์žฅ์ ์„ ๋ชจ๋‘ ๊ฐ–๋Š” Tabnet ์„ ์ œ์•ˆ ๐Ÿ‘‰ feature selection & engineering + ๋ชจ๋ธ ํ•ด์„๋ ฅ์„ ๊ฐ–์ถ˜ ์‹ ๊ฒฝ๋ง ๋ชจ๋ธ 2๏ธโƒฃ Tabnet ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ๐Ÿง ์•™์ƒ๋ธ” ๋ชจ๋ธ์ด ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์ด์œ  (1) .. 2022. 3. 31.
728x90