0๏ธโฃ Tabnet
Tree ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ณ์ ์ ํ ํน์ง์ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ๋ฐ์ํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ
1๏ธโฃ ๋ฐฐ๊ฒฝ
โ ๊ธฐ์กด ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ด๋ฏธ์ง, ์์ฑ, ์ธ์ด์ ๊ฐ์ ๋น์ ํ ๋ฐ์ดํฐ์๋ง ์ ์ฉ๋์์
โ ์ ํ ๋ฐ์ดํฐ Tabular Data ๋ ์ต๊ทผ๊น์ง๋ kaggle ๊ฐ์ ์ฌ๋ฌ ๋ํ์์ XGBoost, LightGBM, CatBoost์๊ฐ์ Tree๊ธฐ๋ฐ์ ์์๋ธ ๋ชจ๋ธ์ ์ฃผ๋ก ์ฌ์ฉํ์
๐ ๋ฅ๋ฌ๋์ ์ ์ง์ ํ์ต ํน์ฑ + ์ฌ์ ํ์ต ๊ฐ๋ฅ์ฑ์ ์๋ก์ด ๋ถ์ ๊ธฐํ๋ฅผ ๋์ถ
๐ ํธ๋ฆฌ๊ธฐ๋ฐ ๋ชจ๋ธ + ์ ๊ฒฝ๋ง ๋ชจ๋ธ ๊ตฌ์กฐ ์ ์ฅ์ ์ ๋ชจ๋ ๊ฐ๋ Tabnet ์ ์ ์ ๐ feature selection & engineering + ๋ชจ๋ธ ํด์๋ ฅ์ ๊ฐ์ถ ์ ๊ฒฝ๋ง ๋ชจ๋ธ
2๏ธโฃ Tabnet ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
๐ง ์์๋ธ ๋ชจ๋ธ์ด ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ด์
(1) ์ ํ๋ฐ์ดํฐ๋ ๋๋ต์ ์ธ ์ดํ๋ฉด ๊ฒฝ๊ณ๋ฅผ ๊ฐ์ง๋ manifold ์ด๊ณ , ๋ถ์คํ ๋ชจ๋ธ๋ค์ ์ด๋ฌํ manifold ์์ ๊ฒฐ์ ์ ํ ๋ ๋ ํจ์จ์ ์ผ๋ก ์๋ํ๋ค. ์ด๋ฏธ์ง์ ์ธ์ด๊ฐ์ ๋น์ ํ ๋ฐ์ดํฐ๋ ์ ํ ๋ฐ์ดํฐ์ ๋นํด ์๋์ ์ผ๋ก ๊ฐ์ ์์ฒ์์ ๋ฐ์๋ ๋ฐ์ดํฐ์ด๋ฏ๋ก ๋๋ต์ ์ธ ์ดํ๋ฉด ๊ฒฝ๊ณ๊ฐ ๋๋ ทํ์ง ์๋ค.
(2) ํธ๋ฆฌ ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค์ด ํ์ต์ด ๋น ๋ฅด๊ณ ์ฝ๊ฒ ๊ฐ๋ฐ์ด ๊ฐ๋ฅํ๋ค.
(3) ํธ๋ฆฌ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค์ ๋์ ํด์๋ ฅ์ ๊ฐ์ง๋ค. ํธ๋ฆฌ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํน์ฑ ์ ๋ณ์ ์ค์๋๋ฅผ ๊ตฌํ ์ ์์ด ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋นํด ์๋์ ์ผ๋ก ํด์์ ์ฉ์ดํ๋ค.
(4) CNN, MLP ๊ฐ์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ง๋์น๊ฒ Overparametrized ๋์ด์ ์ ํ ๋ฐ์ดํฐ ๋ด ๋งค๋ํด๋์์ ์ผ๋ฐํ๋ ํด๊ฒฐ์ฑ ์ ์ฐพ๋๋ฐ ์ด๋ ค์์ ๋ฐ์์ํฌ ์ ์๋ค.
๐ค ์ ํ ๋ฐ์ดํฐ์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ ์ฉํ๋ ๊ฒ๋ ๋์์ง ์์
(1) ๋งค์ฐ ๋ง์ ํ๋ จ ๋ฐ์ดํฐ ์ ์ ๋ํด ์ฑ๋ฅ์ ๋์ผ ์ ์๋ค.
(2) ์ ํ ๋ฐ์ดํฐ์ ์ด๋ฏธ์ง(ํ ์คํธ) ๋ฑ ๋ค๋ฅธ ๋ฐ์ดํฐ ํ์ ์ ํ์ต์ ํจ๊ป ์ฌ์ฉ ๊ฐ๋ฅํ๋ค. (multi - modal Learning)
(3) ํธ๋ฆฌ ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์์ ํ์์ ์ธ Feature engineering ๊ฐ์ ๋จ๊ณ๋ฅผ ํฌ๊ฒ ์๊ตฌํ์ง ์๋๋ค.
(4) ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ Streaming ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ต์ด ์ฉ์ดํ๋ค. (์ง์์ ์ธ ํ์ต)
๐ Tabnet ์ ๋ง์ด์ผ
(1) Feature ์ ์ ์ฒ๋ฆฌ ์์ด ์ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ ์ ์๊ณ , ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๊ธฐ๋ฐ ์ต์ ํ ๋ฐฉ์์ ์ฌ์ฉํด End-to-End learning ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
(2) ์ฑ๋ฅ๊ณผ ํด์๋ ฅ ํฅ์์ ์ํด Sequential attention mechanism ์ ํตํด ์ฌ์ฉํ feature ๋ฅผ ์ ํํ๋ค.
(3) ๊ธฐ์กด ์ ํ ๋ถ๋ฅ, ํ๊ท ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ ์ฐ์์ฑ์ ๊ฐ์ง๋ฉฐ ํด์๋ ฅ์์ ์ ๋ ฅ ํผ์ฒ์ ์ค์๋๋ฅผ ํ์ ํ ์ ์๊ณ , ํผ์ฒ์ ๊ฒฐํฉ์ ์๊ฐํํ์ฌ ํ์ธํด๋ณผ ์ ์์ผ๋ฉฐ, ์ ๋ ฅ ํผ์ฒ๋ค์ด ์ผ๋ง๋ ์์ฃผ ๊ฒฐํฉ๋๋์ง์ ๋ํ ํด์๋ ฅ์ ์ ์ํ๋ค.
3๏ธโฃ Tabnet ์๊ณ ๋ฆฌ์ฆ ๊ตฌ์กฐ
๐ ๊ฐ์
- ์์ฐจ์ ์ธ ์ดํ ์ ์ ์ฌ์ฉํด ๊ฐ ์์ฌ๊ฒฐ์ ๋จ๊ณ์์ ์ถ๋ก ํ ํผ์ฒ๋ฅผ ์ ํํด๊ฐ๋ฉด์ ํผ๋๋ฐฑ์ ์ฃผ๋ฉฐ ํ์ตํด๋์๊ฐ๋ ๊ตฌ์กฐ์ด๋ค ๐ ๋ ๋์ ํด์ ๋ฅ๋ ฅ๊ณผ ํ์ต์ด ๊ฐ๋ฅ + ์จ๊ฒจ์ง ํน์ง์ ์์ธกํ๊ธฐ ์ํด ์ฌ์ ๋น์ง๋ ํ์ต (Self-supervised Learning) ์ ์ฌ์ฉ ๊ฐ๋ฅ
- tabnet ์ feature selection ์ ํน์ ํผ์ฒ๋ง ์ ํํ๋ ๊ฒ์ด ์๋๋ผ, ๊ฐ ํผ์ฒ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ ๊ฒ์ด๋ค. Sparse Feature selection
- Tabnet ์ ๊ตฌ์กฐ๋ Encoder - Decoder ๋ฅผ ๊ฑฐ์ณ ๊ฒฐ์ธก๊ฐ์ ์์ธกํ ์ ์๋ Autoencoder ๊ตฌ์กฐ์ด๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ์ ์ ๊ฒฐ์ธก๊ฐ์ด ์์ด๋ ๋ณ๋์ ์ ์ฒ๋ฆฌ ์์ด ๊ฐ๋ค์ ์ฑ์ธ ์ ์๋ค.
๐ Encoder
- input ์ ์์์ผ๋ก ๊ฐ ์์ฌ๊ฒฐ์ ๋จ๊ณ Step ๋ก ๊ตฌ์ฑ๋์ด ์๊ณ , ๋จ๊ณ๋ง๋ค Feature transformer, Attentive transformer, Feature masking ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
- feature transformer ์ attentive transformer ๋ธ๋ก์ ํต๊ณผํ์ฌ ์ต์ ์ mask ๋ฅผ ํ์ตํ๋ค.
- ๋ค์ decision step ์ผ๋ก ์ด์ ์ decision ์ ๋ํ ์ ๋ณด๋ค์ด ์ ๋ฌ๋๋ ๊ณผ์ ์ด ํธ๋ฆฌ๊ธฐ๋ฐ ๋ถ์คํ ๋ชจ๋ธ์ ์์ฐจ๋ฅผ ์ค์ฌ๋๊ฐ๋ ๋ถ๋ถ๊ณผ ์ ์ฌํ๋ค.
- feature masking ์ local ํด์์ ์ฌ์ฉ๋๋ฉฐ ์ ์ฒด๋ฅผ ์ทจํฉํ์ฌ global ํ ํด์์ ํ ์ ์๊ฒ ๋๋ค.
๐ Decoder
- ๊ฐ step ์์ feature transformer ๋ธ๋ก์ผ๋ก ๊ตฌ์ฑ๋๋ค.
- ์ผ๋ฐ์ ์ธ ํ์ต์์ Decoder ๋ฅผ ์ฌ์ฉํ์ง ์์ง๋ง Self-Supervised (Semi-supervised) ํ์ต ์งํ์ ์ธ์ฝ๋ ๋ค์์ ๋ถ์ฌ์ ธ ๊ธฐ์กด ๊ฒฐ์ธก๊ฐ ๋ณด์ ๋ฐ ํํ ํ์ต์ ์งํํ๋ค.
๐ ์ธ๋ถ ๊ตฌ์กฐ
๐คจ Tabnet ์ํคํ ์ณ๋ฅผ ๋ฐ๋ผ๊ฐ๋ฉฐ ์์ (a) ๊ทธ๋ฆผ์ ์ ์๋ ๊ฐ ๋ฐ์ค ๋ถ๋ถ์ ๋ํด ์ค๋ช ํ๊ณ ์ ํ๋ค.
๐ Feature transformer ๐จ ์๋ฒ ๋ฉ์ ์ํ
- ์ ํ๋ ํผ์ฒ๋ก ์ ํํ ์์ธกํ๊ธฐ ์ํ ์๋ฒ ๋ฉ ๊ธฐ๋ฅ
- ์ ๋ ฅ Feature : numerical ํผ์ฒ๋ ๊ทธ๋๋ก ์ฌ์ฉํ๊ณ , categorical ํผ์ฒ๋ ์๋ฒ ๋ฉ ๋ ์ด์ด๋ฅผ ๊ตฌ์ฑํด์ค๋ค ๐ ๋ชจ๋ธ ์์ฑ์ cat_idxs, cat_dims, cat_emb_dim ์ธ์์ ๊ด๋ จ๋จ
- BatchNorm (BN) : ์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ ๋ ๋ณดํต Min-Max scaler, Standard Scaler ๋ฅผ ์ํํ๋๋ฐ, ์ด๋ฌํ ์ ๊ทํ ๊ณผ์ ์ BatchNorm ๋ ์ด์ด๋ก ๋์ฒดํ์ฌ ์ฌ์ฉํ๋ค.
- batch ๋ฅผ ๋ถํ ํ nano batch ์ฌ์ฉ์ผ๋ก ์ก์์ ์ถ๊ฐํด ์ง์ญ ์ต์ ํ๋ฅผ ์๋ฐฉํ๋ค.
- Feature transformer : FC-BN-GLU ๋ฅผ 4๋ฒ ๋ฐ๋ณตํ ๊ตฌ์กฐ
- FC : fully connected layer ์ ๊ฒฐํฉ์ธต
- GLU : Gated Linear unit, ์ ํ ๋งคํ์ ํตํด ๋์จ ๊ฒฐ๊ณผ๋ฌผ์ ๋ฐ์ผ๋ก ๋๋์ด Residual connection, sigmoidfunction ์ ๊ฑฐ์น ํ element-wise ๋ก ๊ณ์ฐํ๋ ๊ตฌ์กฐ. ๊ฐ ์ ๋ณด ๋ณ ์ ๋ณด์ ์์ ์ผ๋ง๋ ํ๋ ค๋ณด๋ผ์ง ๊ฒฐ์ ํ๊ธฐ ์ํด ๋น์ ํ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
- ์์ 2๊ฐ ๋คํธ์ํฌ ๋ฌถ์์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณต์ ํ๋ฉฐ ๊ธ๋ก๋ฒ ์ฑํฅ์ ํ์ตํ๊ณ , ๋ค์ 2๊ฐ ๋คํธ์ํฌ ๋ฌถ์์ ๊ฐ ์คํ ์์๋ง ์ ์ฉ์ผ๋ก ์ฌ์ฉ๋๋ ๋ธ๋ก์ผ๋ก ๊ฐ ๋ก์ปฌ ์ฑํฅ์ ํ์ตํ๋ค.
๐ Split block
- feature transformer ๋ก๋ถํฐ ๋์จ ๊ฒฐ๊ณผ๋ฅผ ๋ ๊ฐ๋ก ๋๋์ด, ํ๋๋ ReLU ๋ก ๋ณด๋ด์ด ์ต์ข ์์ํ (Decision output) ์ผ๋ก ๋ณด๋ด๊ณ ๋ค๋ฅธ ํ๋๋ ๋ค์ Attentive transformer ๋ก ๋๊ฒจ์ค๋ค.
- ํฅํ ๊ฐ decision output์ ๊ฒฐ๊ณผ๋ฅผ ํฉ์ฐํด ์ ์ฒด ์์ฌ๊ฒฐ์ ์๋ฒ ๋ฉ์ ์์ฑํ ์ ์๊ณ ์ด ์๋ฒ ๋ฉ์ด FC layer ๋ฅผ ๊ฑฐ์น๋ฉด ์ต์ข classification/regression ์์ธก ๊ฒฐ๊ณผ๊ฐ ์ฐ์ถ๋๋ค.
- ReLU layer ์ ๊ฒฐ๊ณผ์์ hidden unit ์ฑ๋์ ๊ฐ๋ค์ ๋ชจ๋ ํฉ์ฐํด ํด๋น step ์ ํผ์ฒ์ค์๋๋ฅผ ์ฐ์ถํ ์ ์๋ค. ๊ฐ ๋จ๊ณ์ ํผ์ฒ์ค์๋ ๊ฒฐ๊ณผ๋ฅผ ํฉ์ฐํ๋ฉด ์ต์ข ํผ์ฒ ์ค์๋๊ฐ ๋์ถ๋๋ค.
๐ Attentive transformer ๐จ Mask ๋ฅผ ์์ฑ (๋ณ์์ ํ ๊ธฐ๋ฅ)
- FC , BN, Sparsemax ๋ฅผ ์์ฐจ์ ์ผ๋ก ์ํํ๋ฉฐ Mask ๋ฅผ ์์ฑํ๋ค.
- Mask ์๋ ์ด๋ค ํผ์ฒ๋ฅผ ์ฃผ๋ก ์ฌ์ฉํ ๊ฒ์ธ์ง์ ๋ํ ์ ๋ณด๊ฐ ํฌํจ๋์ด ์๋ค.
- ์์ฑ๋ Mask ์ ํผ์ฒ๋ฅผ ๊ณฑํ์ฌ ํผ์ฒ์ ํ์ด ์ด๋ฃจ์ด์ง๋ค. ์ด์ step ์ ํผ์ฒ์ ๊ณฑํ์ฌ Masked feature ๋ฅผ ์์ฑํ๋ค. ์ด๋ ๋ค์ Feature transformer ๋ก ์ฐ๊ฒฐ๋๋ฉฐ Step ์ด ๋ฐ๋ณต๋๋ค.
- Prior scale ์ฌ์ ์ ๋ณด๋ : ์ด์ decision step ๋ค์์ ๊ฐ feature ๊ฐ ์ผ๋ง๋ ๋ง์ด ์ฌ์ฉ๋์๋์ง ์ง๊ณํ ์ ๋ณด๋ก, ์ด์ step ์์ ์ฌ์ฉํ Mask ๋ฅผ ์ผ๋ง๋ ์ฌ์ฌ์ฉํ ์ง ์กฐ์ ํ ์ ์๋ค. ์ ํ๋ ๋ณ์์ ๋ฐ์๋ฅ ์ ์กฐ์ ํ๋ ์์ธ.
- masking ์ ํตํด ํ์ต์ ํฐ ์ํฅ์ ๋ฏธ์น์ง ์์ ๋ณ์๋ค์ ์ํฅ๋ ฅ ๊ฐ์์ํด ๐ mask ๋ฅผ ๊ตฌํ๊ธฐ ์ํด attentive transformer ๋ฅผ ์ฌ์ฉ
- Sparsemax : Softmax์ sparseํ ๋ฒ์ ์ผ๋ก sparse ํ ๋ฐ์ดํฐ์ ์ ์ ์ฉํ์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ ์ ๊ทํ๊ธฐ๋ฒ์ด๋ค. ๊ฐ ๋ณ์ ๋ณ ๊ณ์ ๊ฐ๋ค์ ์ผ๋ฐํ๋ฅผ ์ํด ์ฌ์ฉํ๋ค. ๋ณ์์ ์์ด ๋ง์์ง์๋ก ๊ฐ์ด 0๊ณผ 1๋ก ์๋ ด๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ง ๐ ๋ ๊ฐ๋ ฅํ ํผ์ฒ ์ ํ ์์ฌ ๊ฒฐ์ ๊ณผ์ (๊ฒฐ์ ์ ํจ๊ณผ๋ฅผ ๋์ธ๋ค)
๐ feature Masking
- feature importance ๋ฅผ ๊ณ์ฐ
- ์ด์ Step ์ feature ์ ๊ณฑํ์ฌ Masked feature ๋ฅผ ์์ฑ
- ๋ค์ Step ์ Mask ์์ ์ ์ฉํ Prior scale term ๊ณ์ฐ
- Masked feature ๋ ๋ค์ step ์ input ์ด ๋๋ค.
๐ Agg(regate) block
- ์ด๋ค feature ๊ฐ ์ค์ํ์ง ์ ์ ์๋ค.
๐ feature importance mask
- ๊ฐ decision step (M1, M2, ..) ๋ณ๋ก ์ด๋ค ํผ์ฒ๋ค์ด ์ค์ํ๊ฒ ์ฌ์ฉ๋์๋์ง๋ฅผ ์๊ฐํ ํ ๊ฒ์ด๋ค. ๊ฐ ๋จ๊ณ์์ ์ด๋ค ๋ณ์๋ค์ด ์ฃผ์ํ๊ฒ ์ฌ์ฉ๋์๋์ง ํด์ํ ์ ์๋ค.
4๏ธโฃ ์ฝ๋ ์ค์ต
import torch
import torch.nn as nn
from pytorch_tabnet.tab_model import TabNetClassifier
clf = TabNetClassifier() #TabNetRegressor()
clf.fit(
X_train, Y_train,
eval_set=[(X_valid, y_valid)]
)
preds = clf.predict(X_test)
5๏ธโฃ Plus
1. Sparse feature selection = decision blocks
- ์ฌ๋ฌ๊ฐ์ ์์ฌ๊ฒฐ์ ๋ธ๋ก์ ์ฌ์ฉ
- ๊ทธ๋ฆผ์์๋ ์ฑ์ธ ์ธ๊ตฌ์กฐ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ์๋์ ์์ธกํ๋ Tabnet ์ ์ฐ์ฐ ๊ณผ์ ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์๋์์ค์ ์์ธกํ๊ธฐ ์ํด 2๊ฐ์ ์์ฌ๊ฒฐ์ ๋ธ๋ก์ด ๊ฐ๊ฐ ์ ๋ฌธ์ง ์ฌ๋ถ์ ํฌ์์ก์ ๊ด๋ จ๋ ๋ณ์๊ฐ ์ ํํ ๊ฒ์ ๋ณผ ์ ์๋ค.
2. Mask
- Mask ๋ ์ ๋ ฅ๋ณ์๋ค ์ค ์ ํ ๋ณ์ ์ธ ๋ค๋ฅธ ๋ณ์๋ค์ ๊ฐ๋ฆฌ๋ ๋ฐฉ๋ฒ์ด๋ค.
- ๋ ๋ณ์ x1, x2๊ฐ Sparse matrix Mask ๋ฅผ ํต๊ณผํ๊ฒ ๋๋ฉด ํน์ ๋ณ์๋ฅผ ์ ํํ ๊ฒ ๊ฐ์ ํจ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
- Ck : ๊ฐ์ค์น. ์ด ๊ฐ์ด ์ปค์ง์๋ก ๋ถ๋ฅ๋ฅผ ์ํ ๊ฒฐ์ ๊ฒฝ๊ณ๊ฐ ๋๋ ทํด์ง๋ค.
- ๋ณ์ ์ ํ ์ดํ ์๋ฏธ ์ถ์ถ ๊ณผ์ ์์ ๋ค๋ฅธ ๋ณ์๋ค์ด ๊ฐ์ ๋์ง ์์ผ๋ฏ๋ก ReLU ๋ฅผ ํต๊ณผํ ๊ฒฐ๊ณผ๋ค์ ์๋ก ์ํธ ๋ ๋ฆฝ์ ์ด๋ค.
- ReLU ๋ฅผ ํตํด ๊ฒฐ๊ณผ๋ก ๋์จ output ์ ํฉ์ณ ์์ฌ๊ฒฐ์ ์ ์ฌ์ฉํ๋ ๊ฒ์ด ์์๋ธ ํธ๋ฆฌ ๊ตฌ์กฐ์ ์ ์ฌํ๋ค.
3. Self-supervised tabular learning
- Tabnet ์์๋ ์๊ธฐ์ง๋ํ์ต (self - supervised) ์ ์ํด ๋ฌด์์๋ก ๊ฐ๋ ค์ง ๋ณ์๊ฐ์ ์์ธกํ๋ autoencoder ๊ตฌ์กฐ์ ๋น์ง๋ ํ์ต์ ์ํํด ๋น์ง๋ ํํ์ ํ์ตํด encoder ๊ตฌ์กฐ์ ์ง๋ํ์ต ๋ชจ๋ธ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ค.
- ํน์ ์์ญ์ด masking ๋ ์ธ์ฝ๋ฉ ๋ฐ์ดํฐ๋ฅผ ์๋ณธ๋๋ก ๋ณต์ํ ์ ์๋๋ก ํ์ตํ๋ ์ฌ์ ํ์ต์ ํตํด ์์ธก ์ฑ๋ฅ์ ํฅ์, ํ์ต ์๊ฐ ๋จ์ถ ๋ฐ ๊ฒฐ์ธก์น์ ๋ํ ๋ณด๊ฐ ํจ๊ณผ
- encoder ์์ ์ ๋ณด๋ฅผ ์์ถํ๊ณ decoder ์์ ํ์ฅํ์ฌ ํด์ํ๋ฉด์ ๊ฒฐ์ธก์น๋ฅผ ๋ณด์ ํ ์ ์๊ฒ ๋๋ค.
4. Attenstion
- Encoder : ์ ๋ณด๋ฅผ ์์ถ
- Decoder : ์ ๋ณด๋ฅผ ํ์ฅํด์ ํด์
- ๋ฒกํฐ ํ๋์ ๋ชจ๋ ์ํ์ค์ ์ ๋ณด๋ฅผ ์์กดํ์ง ์์ผ๋ฏ๋ก ๊ธธ์ด๋ ์์์ ์ํฅ์ ๋ ๋ฐ์
6๏ธโฃ Tabnet ์ฅ์
1. ์ ์ฒ๋ฆฌ ๊ณผ์ ์ด ํ์ํ์ง ์๋ค.
2. Decision step ์ผ๋ก feature selection ์ ์งํํ๋ค.
3. decision step ๋ณ ํน์ ๋ชจ๋ธ ์ ์ฒด์ ๋ํด feature importance ๋ฅผ ์์นํํ ์ ์๋ค.
4. ๋ฌด์์๋ก ๊ฐ๋ ค์ง feature ๊ฐ์ ์์ธกํ๋ unsupervised pretrain ๋จ๊ณ๋ฅผ ์ ์ฉํ์ฌ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋ค.
5. ์ค์ ๋ฐ์ดํฐ๋ ๋์์์ด ์ ์ ๋๊ณ ๋ณํํ๊ธฐ ๋๋ฌธ์ ํ๋ฒ์ ํ์ต์ผ๋ก ์์ํ ์ฌ์ฉํ ์ ์๋ ๋ชจ๋ธ์ ์๋ค. ๋๋ฌธ์ ๋ฅ๋ฌ๋์ pretraining, Incremental learning (iterative train) ํน์ฑ์ ์ง์ ํ์ต ๊ฐ๋ฅํ ์ธก๋ฉด์์ ์ข์ ๋์์ด๋ค.
๐พ ์ฐธ๊ณ ์๋ฃ
1. https://wsshin.tistory.com/5
2. https://lv99.tistory.com/83
3. https://housekdk.gitbook.io/ml/ml/tabular/tabnet-overview
4. https://themore-dont-know.tistory.com/2
5. https://today-1.tistory.com/54
6. http://dmqm.korea.ac.kr/activity/seminar/327
'1๏ธโฃ AIโขDS > ๐ Model' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
HMM ๊ธฐ๋ณธ ์ฝ๋/์์ฉ์ฌ๋ก ์ ๋ฆฌ (0) | 2024.01.05 |
---|---|
HMM ๊ธฐ์ด ๊ฐ๋ ์ ๋ฆฌ - โก Decoding, Learning (1) | 2024.01.04 |
HMM ๊ธฐ์ด ๊ฐ๋ ์ ๋ฆฌ - โ ๊ฐ๋ , Evaluation (1) | 2024.01.03 |
๋๊ธ