๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐Ÿ“’ Deep learning

[์ธ๊ณต์ง€๋Šฅ] Regularization

by isdawell 2022. 4. 26.
728x90

๐Ÿ“Œ ๊ต๋‚ด '์ธ๊ณต์ง€๋Šฅ' ์ˆ˜์—…์„ ํ†ตํ•ด ๊ณต๋ถ€ํ•œ ๋‚ด์šฉ์„ ์ •๋ฆฌํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. 

 

 

1๏ธโƒฃ  Regularization 


 

โ‘  Loss function

 

(1) Cross Entropy loss function

 

  • ๋ถ„๋ฅ˜๋ฌธ์ œ์—์„œ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ๋น„์šฉํ•จ์ˆ˜ 
  • ti ์™€ oi ์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •ํ•˜์—ฌ ๋‘ ๊ฐ’์ด ๋‹ค๋ฅผ์ˆ˜๋ก ์ฆ‰, ๊ฑฐ๋ฆฌ๊ฐ€ ๋ฉ€์ˆ˜๋ก loss ๊ฐ€ ์ฆ๊ฐ€ํ•œ๋‹ค. ๋‘ ๊ฐ’์˜ ์ฐจ์ด๊ฐ€ 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์ฆ‰ error ๊ฐ€ ์กด์žฌํ•  ๋•Œ loss ๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ณ  ์ฐจ์ด๊ฐ€ 0์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก loss ๊ฐ€ ๋‚ฎ์•„์ง„๋‹ค. 

 

oi ๋ฅผ ๊ฐ€์ง€๊ณ  ti ๋ฅผ ์˜ˆ์ธก

 

โ—พ ti : ground truth label 

โ—พ oi : NN output 

โ—พ C : number of class

 

 

๐Ÿ‘€ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋†’๋‹ค = NN ์˜ ์˜ˆ์ธก์ด ๋ถˆํ™•์‹คํ•˜๋‹ค. 

๐Ÿ‘€ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋‚ฎ๋‹ค = NN ์˜ ์˜ˆ์ธก์ด ํ™•์‹คํ•˜๋‹ค. 

 

(2) Entropy 

 

  • ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ๋ถˆํ™•์‹ค์„ฑ 
  • ํ™•๋ฅ ๋ณ€์ˆ˜ X 
  • ํ™•๋ฅ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ํ™•๋ฅ ๋ถ„ํฌ : p(x) 
  • H(x) ์‹์— ์Œ์ˆ˜๊ฐ€ ๋ถ™๊ฒŒ๋œ ์ด์œ  : p(x) ๋Š” 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋˜๋ฏ€๋กœ log ๊ฐ’์ด ์Œ์ˆ˜๊ฐ€ ๋‚˜์˜ค๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์‹œ ์–‘์ˆ˜๋กœ ๋ณ€ํ™˜ํ•ด์ฃผ๊ธฐ ์œ„ํ•จ + p(x) ์˜ ๋ถˆํ™•์‹ค์„ฑ์ด ๋†’์•„์งˆ์ˆ˜๋ก ์—”ํŠธ๋กœํ”ผ ๊ฐ’์ด ์ปค์ ธ์•ผ ํ•จ 

 

Container1 = 0.5665, Container2 = 0.9968, Container3 = 0.2108

 

 

๐Ÿ‘€ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋‚ฎ๋‹ค = ์‚ผ๊ฐํ˜•์ด๋‚˜ ์›์„ ๋ฝ‘์„ ํ™•๋ฅ ์ด ๋ช…ํ™•ํ•˜๋‹ค = ์ฃผ์–ด์ง„ ๋ชจ์–‘์„ ๋ฝ‘์„ ํ™•๋ฅ ์ด ํ™•์‹คํ•˜๋‹ค. 

 

  • Container2 ์˜ ๊ฒฝ์šฐ ์›๊ณผ ์‚ผ๊ฐํ˜• ์ค‘์— ๋ฌด์—‡์„ ๋ฝ‘๊ฒŒ๋ ์ง€ ๋ถˆํ™•์‹คํ•˜๋ฏ€๋กœ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋†’๋‹ค. 

 

 

(3) loss function ์˜ ์ข…๋ฅ˜ 

 

1. binary cross-entropy loss for binary classification

 

 

 

2. Categorical cross-entropy loss for multi-class classification

 

 

 

 

 

โ‘ก Regularization 

 

  • ์˜ค๋ฒ„ํ”ผํŒ…์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ์ •๋ณด๋ฅผ ๋„ฃ์–ด์ฃผ๋Š” ๊ฒƒ
  • ๊ฐ€์žฅ ํ”ํ•œ ํŒจํ„ด : ํ›ˆ๋ จ ๊ณผ์ •์— ์ž„์˜์„ฑ randomness ์„ ๋ถ€์—ฌํ•˜๋Š” ๊ฒƒ ๐Ÿ‘‰ ๋žœ๋คํ•œ ๋…ธ์ด์ฆˆ๋ฅผ ํฌํ•จํ•˜์—ฌ ํ•™์Šต์ด ์ด๋ฃจ์–ด์ง€๋ฏ€๋กœ ๋ฏธ๋ž˜์˜ ์ผ๋ฐ˜ํ™”๋œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ž˜ ๋Œ€์‘ํ•œ๋‹ค. 

 

 

 

 

โ‘ข Overfitting 

 

  • ์ผ๋ฐ˜ํ™”๊ฐ€ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š๊ณ  ํŠน์ˆ˜ํ•œ ์ƒํ™ฉ์— ๋Œ€ํ•ด์„œ๋งŒ ๋งž์ถฐ์„œ ํ›ˆ๋ จ์ด ๋œ ์ƒํ™ฉ
  • high variance ๐Ÿ‘‰ validation error much higher than training error 

 

 

 

 

 

2๏ธโƒฃ ์˜ค๋ฒ„ํ”ผํŒ…์„ ๋ง‰๋Š” ๋ฐฉ๋ฒ•


 

โ‘  Use Validation set 

 

๊ฒ€์ฆ๋ฐ์ดํ„ฐ๋Š” ํ•™์Šต๋ฅ , ์—ํฌํฌ์ˆ˜, ์€๋‹‰์ธต ๊ฐœ์ˆ˜ ๋“ฑ์˜ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š”๋ฐ ์‚ฌ์šฉํ•œ๋‹ค.

 

  • Validation set is used to optimize the model parameters while the test set is used to provide an unbiased estimate of the final model
  • ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์€ ๊ฒ€์ฆ๋ฐ์ดํ„ฐ ์…‹์„ ํ†ตํ•ด ๊ฒฐ์ •๋œ ์ตœ์ข… ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š”๋ฐ ์‚ฌ์šฉํ•œ๋‹ค.

 

 

 

  • validation ๊ณผ์ • ๋˜ํ•œ ํ•™์Šต์— ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ณ€๊ฒฝํ•  ๋•Œ validation loss ๋ฅผ ๋ณด๊ณ  ๋ณ€๊ฒฝํ•˜๋Š”๋ฐ,์ด๋ ‡๊ฒŒ ์ง€์†์ ์œผ๋กœ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ฐ”๊พธ๋Š” ๊ฒƒ ์ž์ฒด๊ฐ€ validation dataset ์— optimize ๋œ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๋ฐ”๊พผ๋‹ค๋Š” ์˜๋ฏธ! ๐Ÿ‘‰ ์ด๊ฑธ ์ตœ์ข… output ์œผ๋กœ ๋‚ด๋ฉด ์ผ๋ฐ˜ํ™”๊ฐ€ ์–ด๋ ค์›€ (validation ์— bias ๋œ ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ฒŒ ๋จ)

 

  • ์ผ๋ฐ˜์ ์ธ ๋ชจ๋ธ์„ ๋งŒ๋“ค๋ ค๋ฉด ํ•™์Šต ๊ณผ์ •์— ์ „ํ˜€ ์ฐธ์—ฌํ•˜์ง€ ์•Š์€ test data set ์ด ํ•„์š”ํ•˜๋‹ค ๐Ÿ‘‰ ์–ด๋Š ์ƒํ™ฉ์—๋„ bias ๋˜์ง€ ์•Š์€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋„์ถœํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

 

 

 

 

 

โ‘ก ๋ชจ๋ธ์˜ ๋ณต์žก๋„ ๋‚ฎ์ถ”๊ธฐ

 

  • ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์— ๋น„ํ•ด ๋„ˆ๋ฌด ๋ณต์žกํ•œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋ฉด ์˜ค๋ฒ„ํ”ผํŒ…์ด ๋ฐœ์ƒํ•œ๋‹ค. 

 

 

โ‘ข Larger Dataset Size

 

  • ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์„์ˆ˜๋ก ์˜ค๋ฒ„ํ”ผํŒ…์„ ๋ง‰์„ ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

๐Ÿ‘€ Data Augmentation ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• 

 

  • ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์ง€ ์•Š์„ ๋•Œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€ํ‘œ์ ์ธ ๋ฐฉ๋ฒ•

 

 

โ‘ฃ Weight decay 

 

  • ์˜ค๋ฒ„ํ”ผํŒ…์ด ์ผ์–ด๋‚ ์ˆ˜๋ก ๊ฐ€์ค‘์น˜ ๊ฐ’์ด ์ปค์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Œ (ํŠน์ • ์ƒํ™ฉ์—๋งŒ ๋งž๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ๋งŽ์ด ์ฆ๊ฐ€์‹œํ‚ด)
  • ๊ฐ€์ค‘์น˜ ๊ฐ’์„ ์ž‘๊ฒŒ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก loss function ์— L1 ํ˜น์€ L2 ์ •์น™ํ™” ๋ถ€๋ถ„์„ error function์— ๋„ฃ์–ด์คŒ
  • λ lambda : weight decay ์˜ ์˜ํ–ฅ๋ ฅ์„ ์กฐ์ ˆํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ

 

 

 

โ‘ค Early stopping 

 

 

 

 

โ‘ฅ Dropout 

 

  • connection ์ด ์—†์ด๋„ ํ›ˆ๋ จ๋  ์ˆ˜ ์žˆ๋„๋ก ์œ ๋„ ๐Ÿ‘‰ ์ผ๋ฐ˜ํ™” = ๋…ธ์ด์ฆˆ๋ฅผ ์‚ฝ์ž…ํ•œ ํšจ๊ณผ
  • ํ›ˆ๋ จ๋‹จ๊ณ„์—์„œ ๋‰ด๋Ÿฐ ์‚ฌ์ด์˜ ์—ฐ๊ฒฐ(์‹œ๋ƒ…์Šค)์„ ๋žœ๋คํ•˜๊ฒŒ ๋Š์Œ (drop)
  • ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ P : p ๋น„์œจ๋งŒํผ ์—ฐ๊ฒฐ์„ ์ œ๊ฑฐ 
    • ์˜ˆ์‹œ. dropout 0.5: drop half of connections
  • Test ๋‹จ๊ณ„์—์„œ๋Š” ์ „๊ฒฐํ•ฉ ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. 

 

 

 

 

 

โ‘ฆ Batch Normalization 

 

์ด๋ฏธ์ง€์˜ input feature ํ˜น์€ activation ๋“ค์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ํŠน์ •ํ•œ ๊ฐ’์œผ๋กœ ๋ฐ”๊ฟ”์ฃผ๋Š” ๊ณผ์ •

 

๊ฐ ๋ ˆ์ด์–ด๋งˆ๋‹ค ์ •๊ทœํ™” ํ•˜๋Š” ๋ ˆ์ด์–ด๋ฅผ ๋‘์–ด, ๋ณ€ํ˜•๋œ ๋ถ„ํฌ๊ฐ€ ๋‚˜์˜ค์ง€ ์•Š๋„๋ก ์กฐ์ ˆํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด ๋ฐฐ์น˜ ์ •๊ทœํ™”

 

 

๐Ÿ‘€ mean ์„ ๋ฐ”๊พผ๋‹ค = ์ „์ฒด ํ”ฝ์…€๊ฐ’์„ shift ํ•˜๋Š” ํšจ๊ณผ

 

๐Ÿ‘€ variance ๋ฅผ ๋ฐ”๊พผ๋‹ค = ํ”ฝ์…€๊ฐ’์„ scaling ํ•ด์ฃผ๋Š” ํšจ๊ณผ

 

๐Ÿ‘€ ์ด๋ฏธ์ง€๋ฅผ ์ด๋ ‡๊ฒŒ ๋ณ€ํ™˜ํ•˜๋ฉด regularization ํšจ๊ณผ๋ฅผ ๊ฐ€์ ธ๋‹ค์ค˜์„œ ํ›ˆ๋ จ์ด ๋” ์ž˜๋œ๋‹ค. 

 

๐Ÿ‘€ ๋งค layer ๋งˆ๋‹ค ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ๊ฐ’์ด ์กด์žฌ : ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ๊ฐ’ ์ž์ฒด๋ฅผ ํ›ˆ๋ จํ•จ ๐Ÿ‘‰ ์ด๋ฏธ์ง€๊ฐ€ ์–ด๋–ค ๋ฐฉํ–ฅ์œผ๋กœ shift ๋˜๊ณ  scaling ๋˜์–ด์•ผ ๊ฐ€์žฅ ์ ํ•ฉํ•œ normalization์ด ๋˜๋Š”์ง€ ๊ธฐ๊ณ„๊ฐ€ ์•Œ์•„์„œ ์ฐพ์Œ

 

 

 

 

728x90

๋Œ“๊ธ€