๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐Ÿ“’ Deep learning

[์ธ๊ณต์ง€๋Šฅ] CNN

by isdawell 2022. 4. 23.
728x90

๐Ÿ“Œ ๊ต๋‚ด '์ธ๊ณต์ง€๋Šฅ' ์ˆ˜์—…์„ ํ†ตํ•ด ๊ณต๋ถ€ํ•œ ๋‚ด์šฉ์„ ์ •๋ฆฌํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. 

 

 

 

 


 

 

1๏ธโƒฃ  CNN 


 

โ‘  Architecture 

 

๐Ÿ‘€ Convolution Neural Network 

 

  • ์ด๋ฏธ์ง€ ์ธ์‹, ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜์—์„œ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๋ชจ๋ธ์ด๋‹ค. 
  • CNN ์€ ์ „๊ฒฐํ•ฉ ๊ตฌ์กฐ๊ฐ€ ์•„๋‹ˆ๋‹ค ๐Ÿ‘‰ ์‹œ๋ƒ…์Šค ์—ฐ๊ฒฐ ๊ฐœ์ˆ˜๊ฐ€ ์ ๋‹ค ๐Ÿ‘‰ weight ๊ฐœ์ˆ˜๊ฐ€ ์ ๋‹ค ๐Ÿ’จ ์—ฐ์‚ฐ๋Ÿ‰์ด ์ ๋‹ค
  • FC layer ๋ณด๋‹ค ๋” ํšจ๊ณผ์ ์œผ๋กœ feature extraction ์„ ์ง„ํ–‰ํ•˜๊ณ  ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค. 

 

 

โ‘ก ImageNet competition

 

๐Ÿ‘€ ImageNet 

 

  • ๋ฐ์ดํ„ฐ์…‹ ๋ช…์นญ์œผ๋กœ 14000๋งŒ๊ฐœ์˜ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค. 
  • 1000๊ฐœ์˜ ์‚ฌ๋ฌผ ์ข…๋ฅ˜์— ๋Œ€ํ•œ ์ด๋ฏธ์ง€๊ฐ€ ๋‹ด๊ฒจ์ ธ ์žˆ๋‹ค. 
  • ์ด๋ฏธ์ง€ ์†์— ์กด์žฌํ•˜๋Š” ๊ฐ ์‚ฌ๋ฌผ์˜ ์ด๋ฆ„์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋งž์ถ”๋Š”๊ฐ€์— ๊ด€ํ•œ ํ•™์ˆ ๋Œ€ํšŒ ILSVRC ์—์„œ CNN ์ด ํš๊ธฐ์ ์ธ ์„ฑ๋Šฅ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค. 

 

layer ์ˆ˜๊ฐ€ ํš๊ธฐ์ ์œผ๋กœ ์ฆ๊ฐ€ํ•œ ResNet ๋ชจ๋ธ์ด ๋“ฑ์žฅ

 

โ‘ข AlexNet 

 

๐Ÿ‘€ 2012๋…„์— ๋“ฑ์žฅํ•œ CNN ๋ชจ๋ธ 

 

 

 

  • 5๊ฐœ์˜ Conv layer ์™€ 3๊ฐœ์˜ FC layer ๋กœ ์ด๋ฃจ์–ด์ง„ Network 
  • 3D Conv layer + Max Pooling ๐Ÿ‘‰ Featrure extraction : low level feature ๋ถ€ํ„ฐ high level feature ๊นŒ์ง€ ์ถ”์ถœ 
  • Dense layer ๐Ÿ‘‰ Classification : ์ถ”์ถœ๋œ high level feature ๊ฐ€ ๊ณต๊ฐ„์ƒ์—์„œ ์–ด๋– ํ•œ ์ ์œผ๋กœ ํ‘œํ˜„๋˜๊ณ  FC layer ๋Š” ์ด๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ์„ ์„ ๊ทธ๋ฆฌ๊ฒŒ ๋œ๋‹ค. 

 

 

 

 

 

โ‘ข 2D Conv ์—ฐ์‚ฐ, Zero Pad, Stride

 

๐Ÿ‘€ 2D Conv ์šฉ์–ด ์ •๋ฆฌ  

 

 

 

 

โญ input image = input activation = input feature map 

 

โญ Filter = Kernel = Weight 

 

โญ output image = output activation = output feature map 

 

 

 

 

๐Ÿ‘€ Convolution ์—ฐ์‚ฐ 

 

 

 

โญ Stride : sliding window ๊ฐ€ ์ด๋™ํ•˜๋Š” ํฌ๊ธฐ 

 

  • input ์ด๋ฏธ์ง€ ์ „์ฒด๋ฅผ sweep ํ•  ๋•Œ๊นŒ์ง€ convolution ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. 

 

 

 

๐Ÿ‘€ Zero Pad

 

  • 3x3 filter ๋กœ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ์„ ์ง„ํ–‰ํ•˜์˜€์ง€๋งŒ 5x5 input ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๊ฐ€ 3x3 ์œผ๋กœ ์ค„์–ด๋“ค์—ˆ๋‹ค.
  • ๋ณธ๋ž˜ ์ด๋ฏธ์ง€ ํฌ๊ธฐ์— ๋งž๊ฒŒ 5x5 ๋กœ ์ถœ๋ ฅํ•˜๊ธฐ ์œ„ํ•ด zero padding ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. 

 

 

 

 

โ‘ฃ Convolution ํ•ด์„ 

 

๐Ÿ‘€ Convolution == Feature extraction 

 

  • ๋”ฅ๋Ÿฌ๋‹์—์„œ๋Š” ์ตœ์ ์˜ convolution kernel ์„ ๊ธฐ๊ณ„๊ฐ€ ์ง์ ‘ ํ•™์Šตํ•˜์—ฌ ์ฐพ๋Š”๋‹ค. 
  • filter (weight) ๊ฐ’์ด ํฐ ๋ถ€๋ถ„์— ๋Œ€์‘๋˜๋Š” ๋ถ€๋ถ„์€ ํ”ฝ์…€๊ฐ’์ด ํฌ๋‹ค. 

 

 

 

 

 

โ‘ค 3D Conv

 

โญ input channel = input depth 

 

  • ์ปฌ๋Ÿฌ ์ด๋ฏธ์ง€๋Š” ๋ณดํ†ต RGB ๋ผ๋Š” 3๊ฐœ์˜ channel ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. 
  • input ์ด๋ฏธ์ง€๊ฐ€ 3๊ฐœ์˜ ์ฑ„๋„๋กœ ๋ถ„ํ•ด๋˜๊ณ , filter ๋„ 3D๋กœ ํ‘œํ˜„๋˜์–ด ๊ฐ depth ๋ณ„๋กœ ํ•ฉ์„ฑ๊ณฑ์„ ์ง„ํ–‰ํ•˜์—ฌ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ•ฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. 

 

 

 

 

 

  • 3D input ๊ณผ 3D filter ์˜ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ์€ 2D output ์ด๋ฏธ์ง€๋ฅผ ๋„์ถœํ•œ๋‹ค. 

 

 

  • 3D input ๊ณผ 4D filter (ํ•„ํ„ฐ์˜ ๊ฐœ์ˆ˜๊ฐ€ 2๊ฐœ ์ด์ƒ) ์˜ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ์€ 3D output ์ด๋ฏธ์ง€๋ฅผ ๋„์ถœํ•œ๋‹ค. ์ด๋•Œ 3D output feature map ์—๋„ depth ๊ฐ€ ์ƒ์„ฑ๋œ๋‹ค. 

 

โญ Output channel = output depth 

 

์ผ๋ฐ˜์ ์ธ convolution layer ์˜ ๊ตฌ์กฐ์— ํ•ด๋‹นํ•œ๋‹ค.

 

 

โ‘ฅ Summary 

 

 

 

๐Ÿ’จ input featrue map (3D) = W1 x H1 x C

 

  • C ๋Š” channel ๊ฐœ์ˆ˜ 

 

๐Ÿ’จ Conv layer ๋Š” 4๊ฐœ์˜ hyperparameter ๊ฐ€ ํ•„์š”ํ•˜๋‹ค. 

 

  • ํ•„ํ„ฐ์˜ ๊ฐœ์ˆ˜ K : 3D filter ๊ฐ€ k ๊ฐœ ์žˆ๋‹ค = output channel ์ด k๊ฐœ ์กด์žฌํ•œ๋‹ค. 
  • ํ•„ํ„ฐ ํฌ๊ธฐ F : ๋ณดํ†ต์€ 3x3, 5x5 ์ด๋Ÿฐ์‹์œผ๋กœ width ์™€ height ๊ฐ€ ๊ฐ™์€ ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. 
  • Stride S : sliding window ์˜ ํฌ๊ธฐ 
  • Zero padding P : p๊ฐœ ๋งŒํผ boarder ๋ถ€๋ถ„์— zero value pixel ์„ ๊ฐ์‹ธ์ค€๋‹ค. 

 

 

๐Ÿ’จ output feature map (3D) = W2 x H2 x K 

 

  • W2 = (W1 - F + 2*P)/S + 1 
  • H2 = (H1 - F + 2*P)/S + 1

 

 

๐Ÿ’จ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐœ์ˆ˜ 

 

  • F*F*C*K ๊ฐœ์˜ weights
  • K ๊ฐœ์˜ biases (ํ•„ํ„ฐ๋งˆ๋‹ค ํ•˜๋‚˜์”ฉ ์กด์žฌ) 

 

 

โ‘ฆ Conv layer in terms of Neurons 

 

๐Ÿ‘€ ์ปจ๋ณผ๋ฃจ์…˜ ์—ฐ์‚ฐ์„ ๋‰ด๋Ÿฐ ํ˜•ํƒœ๋กœ ๊ทธ๋ ค๋ณด๊ธฐ 

 

kernel = weight

 

  • โญ ๋‹ค๋ฅธ connection ์— ๋Œ€ํ•ด ๊ฐ™์€ weight ๋ฅผ ๊ณต์œ ํ•œ๋‹ค = weight ๋ฅผ reuse (share) ํ•œ๋‹ค 
  • ๋งŒ์•ฝ FC layer ์˜€๋‹ค๋ฉด input 9๊ฐœ์— ๋Œ€ํ•ด ๋ชจ๋“  connection ์ด ์ด๋ฃจ์–ด์ ธ์•ผ ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Conv layer ์—์„œ๋Š” output ํ•˜๋‚˜๋ฅผ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ 4๊ฐœ์˜ input feature ์™€ 4๊ฐœ์˜ weight connection ๋งŒ ์กด์žฌํ•œ๋‹ค. 
  • โญ FC layer ์™€ ๋‹ค๋ฅด๊ฒŒ Conv layer ์—์„œ๋Š” ์ผ๋ถ€ Connection ๋งŒ ์กด์žฌํ•œ๋‹ค = Connection ์˜ ๊ฐœ์ˆ˜๊ฐ€ ์ ๋‹ค 
  • โญ ํ•˜๋‚˜์˜ ์ปค๋„์ด ๊ณ„์‚ฐ๋˜๋Š” input ์˜์—ญ์„ Receptive field ๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. 

 

 

๐Ÿ‘ป ๋™์ผํ•œ output ์—ฐ์‚ฐ์— ๋Œ€ํ•ด ํ•„์š”ํ•œ weight ๊ฐœ์ˆ˜ 

 

FC layer 9x4
Conv layer 4

 

→ ๋ฉ”๋ชจ๋ฆฌ & ๊ณ„์‚ฐ ์ธก๋ฉด์—์„œ ํšจ์œจ์„ฑ์ด Conv layer ๊ฐ€ ํ›จ์”ฌ ๋†’๋‹ค. 

 

 

๐Ÿ‘ป Receptive field ์šฉ์–ด๊ฐ€ ๋“ฑ์žฅํ•œ ๋ฐฐ๊ฒฝ

 

  • Retinal ganglion cell ๋ง๋ง‰์„ธํฌ์˜ receptive field : ๋น›์„ ์ธ์‹ํ•  ๋•Œ ์ „์ฒด๊ฐ€ ์•„๋‹Œ ๊ทธ ์ผ๋ถ€๋ฅผ ํŠน์ • ์„ธํฌ์—์„œ ๋ชจ์•„ ์ธ์‹ํ•œ๋‹ค.
  • ํ•ฉ์„ฑ๊ณฑ์—์„œ receptive field ๋‹จ์œ„๋กœ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๊ณ  layer ๊ฐ€ ์—ฌ๋Ÿฌ๊ฐœ ์กด์žฌํ•˜์—ฌ ๊ณ ์ฐจ์›์ ์œผ๋กœ feature ๋ฅผ ๋ฝ‘์•„๋‚˜๊ฐ€๋Š” ๊ณผ์ •์ด ์‹ค์ œ ๋ง๋ง‰์„ธํฌ์˜ ์ƒ๋ฌผํ•™์  ํ˜„์ƒ๊ณผ ๋‹ฎ์•„์žˆ๋‹ค. 

 

โ‘ง Pooling = subsampling 

 

๐Ÿ‘€ Nonlinear down-sampling 

 

  • pooling ์„ ํ†ตํ•ด ์ด๋ฏธ์ง€ ์ฐจ์›์ด ๋‚ฎ์•„์ง€๊ธฐ ๋•Œ๋ฌธ์— down sampling ์ด๋ผ๊ณ ๋„ ๋ถ€๋ฅธ๋‹ค. 
  • Pooling ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋ฉด Feature map size ๊ฐ€ ๊ฐ์†Œํ•˜์—ฌ ์—ฐ์‚ฐ๋Ÿ‰๊ณผ ์šฉ๋Ÿ‰์ด ์ค„์–ด๋“ ๋‹ค. 
  • Pooling ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋ฉด translation invariance ๊ฐ€ ๊ฐ•ํ•ด์ง„๋‹ค. ์ฆ‰, ๋…ธ์ด์ฆˆ์— ๊ฐ•ํ•ด์ง„๋‹ค๋Š” ์˜๋ฏธ์ธ๋ฐ, ์ด๋Š” ์ด๋ฏธ์ง€์—์„œ ์‚ฌ๋ฌผ์ด ์›€์ง์ผ ๋•Œ ์ด๋ฅผ ์ž˜ ์ธ์‹ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์˜ˆ๋ฅผ๋“ค์–ด ์‚ฌ๊ณผ ์ด๋ฏธ์ง€์˜ ์œ„์น˜๊ฐ€ ์™ผ์ชฝ์œผ๋กœ ์›€์ง์—ฌ๋„ ์ด๋ฅผ ์‚ฌ๊ณผ๋ผ๊ณ  ์ž˜ ์ธ์‹ํ•˜๋ฉด translation invariance ์— ๊ฐ•ํ•˜๋‹ค๊ณ  ํ‘œํ˜„ํ•œ๋‹ค. 

 

 

 


 

 

2๏ธโƒฃ  AlexNet 


 

 

https://daeun-computer-uneasy.tistory.com/33

 

 

โญ  Output image ํฌ๊ธฐ ๊ตฌํ•˜๋Š” ๊ณต์‹ 

โ—ฝ I : input image size (W1xH1) ์—์„œ W1 ํฌ๊ธฐ 

โ—ฝ K : FxF kernel size ์—์„œ F ํฌ๊ธฐ 

โ—ฝ P : padding size 

โ—ฝ S : stride 

 

 

 

 

โญ  max pooling ํ›„ output ํฌ๊ธฐ ๊ตฌํ•˜๋Š” ๋ฐฉ์‹ 

โ—ฝ I : input image size (W1xH1) ์—์„œ W1 ํฌ๊ธฐ 

โ—ฝ Ps : Pooling size 

โ—ฝ S : stride 

 

 

 

โ‘  ์ฒซ๋ฒˆ์งธ Conv

 

โ—พ input : 227x227x3 (์›๋ž˜ 224x224 input ์ธ๋ฐ ์—ฐ์‚ฐ ๊ณผ์ • ์ƒ 3 pixel ์„ ์ถ”๊ฐ€) 

 

โ—พ filter : 11x11x3 , 96๊ฐœ 

 

โ—พ stride = 4 

 

โ—ป (227 - 11)/4 + 1 = 55 

 

โ—พ output : 55 x 55 x 96 ๐Ÿ‘‰ ReLU ํ•จ์ˆ˜๋กœ ํ™œ์„ฑํ™” 

 

โ—พ 3x3 max pooling , with stride=2 

 

โ—ป (55 - 3)/2 + 1 = 27

 

โ—พ maxpooling ์„ ๊ฑฐ์นœ ์ตœ์ข… output : 27 x 27 x96

 

โ—พ local response normalization for ์ˆ˜๋ ด์†๋„ ๋†’์ด๊ธฐ : ์ฐจ์› ๋ณ€ํ™”๋Š” ์ผ์–ด๋‚˜์ง€ ์•Š์Œ 

 

โญ normalization : convolution์ด๋‚˜ pooling์‹œ ํŠน์ • ํ”ฝ์…€์˜ ๊ฐ’์ด ๋งค์šฐ ๋†’์•„์„œ ์ฃผ๋ณ€์— ์˜ํ–ฅ์„ ์ฃผ๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๊ณ ์ž ๋‹ค๋ฅธ ๋งต์˜ ๊ฐ™์€ ์œ„์น˜์— ์žˆ๋Š” pixel๋ผ๋ฆฌ ์ •๊ทœํ™”(normalization)๋ฅผ ํ•ด์ค€๋‹ค.

 

 

 

โ‘ก ๋‘๋ฒˆ์งธ Conv

 

โ—พ input : ์ด์ „ ๋‹จ๊ณ„์˜ Conv output  27 x 27 x96

 

โ—พ filter : 5x5x96 , 256๊ฐœ 

 

โ—พ stride = 1, padding = 2 

 

โ—ป (27 - 5 + 2*2)/1 + 1 = 27

 

โ—พ output : 27x27x256 ๐Ÿ‘‰ ReLU ํ•จ์ˆ˜๋กœ ํ™œ์„ฑํ™” 

 

โ—พ 3x3 max pooling , with stride=2

 

โ—ป (27 - 3)/2 + 1 = 13

 

โ—พ maxpooling ์„ ๊ฑฐ์นœ ์ตœ์ข… output : 13 x 13 x 256

 

โ—พ local response normalization for ์ˆ˜๋ ด์†๋„ ๋†’์ด๊ธฐ : ์ฐจ์› ๋ณ€ํ™”๋Š” ์ผ์–ด๋‚˜์ง€ ์•Š์Œ 

 

 

 

โ‘ข ์„ธ๋ฒˆ์งธ Conv

 

โ—พ input : ์ด์ „ ๋‹จ๊ณ„์˜ Conv output 13 x 13 x 256

 

โ—พ filter : 3x3x256 , 384๊ฐœ 

 

โ—พ stride = 1

 

โ—พ pooling = same : ์ถœ๋ ฅ ์ด๋ฏธ์ง€ ํฌ๊ธฐ์™€ ์ž…๋ ฅ ์ด๋ฏธ์ง€ ํฌ๊ธฐ๋ฅผ ๊ฐ™๊ฒŒํ•˜๋Š” ์˜ต์…˜ : P = (F-1)/2 = (3-1)/2 = 1

 

โ—ป (13 - 3 + 2*1)/1 + 1 = 13

 

โ—พ output : 13x13x384 ๐Ÿ‘‰ ReLU ํ•จ์ˆ˜๋กœ ํ™œ์„ฑํ™” 

 

 

โ‘ฃ ๋„ค๋ฒˆ์งธ Conv

 

โ—พ input : ์ด์ „ ๋‹จ๊ณ„์˜ Conv output 13x13x384 

 

โ—พ filter : 3x3x384 , 384๊ฐœ 

 

โ—พ stride = 1

 

โ—พ pooling = same  : P = (F-1)/2 = (3-1)/2 = 1

 

โ—ป (13 - 3 + 2*1)/1 + 1 = 13

 

โ—พ output : 13x13x384 ๐Ÿ‘‰ ReLU ํ•จ์ˆ˜๋กœ ํ™œ์„ฑํ™” 

 

 

 

โ‘ค ๋‹ค์„ฏ๋ฒˆ์งธ Conv

 

โ—พ input : ์ด์ „ ๋‹จ๊ณ„์˜ Conv output  13x13x384

 

โ—พ filter : 3x3x384 , 256๊ฐœ 

 

โ—พ stride = 1

 

โ—พ pooling = same : P = (F-1)/2 = (3-1)/2 = 1

 

โ—ป (13 - 3 + 2*1)/1 + 1 = 13

 

โ—พ output : 13 x 13 x256 ๐Ÿ‘‰ ReLU ํ•จ์ˆ˜๋กœ ํ™œ์„ฑํ™” 

 

โ—พ max pooling 3x3 with stride =2 

 

โ—ป (13 - 3)/2 + 1 = 6

 

โ—พ maxpooling ์„ ๊ฑฐ์นœ ์ตœ์ข… output : 6 x 6 x 256

 

 

 

โ‘ฅ FC layer 3๊ฐœ

 

1. First FC 

 

  • Flatten : 6x6x256 = 9,216 ์ฐจ์›์˜ ๋ฒกํ„ฐ๋กœ ๋งŒ๋“ฆ
  • Flatten ํ•œ ๊ฒƒ์„ 4096๊ฐœ์˜ ๋‰ด๋Ÿฐ๊ณผ fully connected ํ›„ ReLU ๋กœ ํ™œ์„ฑํ™” 

 

2. Second FC 

 

  • ์ด์ „ ๋‹จ๊ณ„์˜ 4096๊ฐœ์˜ ๋‰ด๋Ÿฐ๊ณผ 4096๊ฐœ์˜ ๋‰ด๋Ÿฐ์„ FC ํ›„ ReLU ๋กœ ํ™œ์„ฑํ™” 

 

3. Third FC

 

  • ์ด์ „ ๋‹จ๊ณ„์˜ 4096๊ฐœ์˜ ๋‰ด๋Ÿฐ๊ณผ 1000๊ฐœ์˜ ๋‰ด๋Ÿฐ์„ FC ํ•œ ํ›„ 1000๊ฐœ์˜ ๋‰ด๋Ÿฐ ์ถœ๋ ฅ๊ฐ’์— softmax ๋ฅผ ์ทจํ•˜์—ฌ 1000๊ฐœ์˜ ํด๋ž˜์Šค ๊ฐ๊ฐ์— ์†ํ•  ํ™•๋ฅ ๊ฐ’์„ ๋„์ถœ 

 

 

 

 

 

๐Ÿ‘ป ์ฐธ๊ณ  : same padding 

 

  • ์ž…๋ ฅํฌ๊ธฐ์™€ ์ถœ๋ ฅํฌ๊ธฐ๋ฅผ ๋™์ผํ•˜๊ฒŒ ์œ ์ง€ํ•˜๋„๋ก ํ•˜๋Š” ํŒจ๋”ฉ๊ธฐ๋ฒ• 
  • ์ž…๋ ฅ ๋ฐ์ดํ„ฐ (Wi,Hi) ์™€ (F,F) ํฌ๊ธฐ์˜ ํ•„ํ„ฐ๊ฐ€ ์žˆ์„ ๋•Œ, ์„ธ์ž„ ํŒจ๋”ฉ์˜ ํญ P ๋Š” (F-1)/2 ๊ฐ€ ๋œ๋‹ค. 
  • ์„ธ์ž„ํŒจ๋”ฉ์„ ์ ์šฉํ•œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๋Š” (Wi+2*P, Hi+2*P) ๊ฐ€ ๋œ๋‹ค. 

 

 

 

 

 


 

3๏ธโƒฃ CNN ์˜ ํ™œ์šฉ  


 

 

๐Ÿพ ํ•˜๋“œ์›จ์–ด์— ๋”ฐ๋ผ ๋”ฅ๋Ÿฌ๋‹์˜ ์—ฐ์‚ฐ์†๋„/์„ฑ๋Šฅ์ด ๊ฒฐ์ •๋œ๋‹ค. 

 

 

1. ์•ŒํŒŒ๊ณ  : ๋ฐ”๋‘‘ํŒ ์ด๋ฏธ์ง€๋ฅผ ์ธํ’‹์œผ๋กœ ๋„ฃ์–ด ๋‹ค์Œ ์ˆ˜๋ฅผ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜ ๋ฐ”๋‘‘์˜ ํŒ์„ธ๊ฐ€ ์–ด๋Š์ •๋„์ธ์ง€๋ฅผ ํŒ๋ณ„ 

 

 

 

 

2. ํ…Œ์Šฌ๋ผ ์ž์œจ์ฃผํ–‰ ์ž๋™์ฐจ : ์ „๋ฐฉ์ฃผ์‹œ ์นด๋ฉ”๋ผ์˜ CNN ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ์žฅ๋ฉด์ธ์‹ ๊ธฐ์ˆ  

 

โญ NPU : neural processing unit

 

 

3. ์• ํ”Œ ์–ผ๊ตด์ธ์‹ ์ž ๊ธˆํ•ด์ œ ๊ธฐ๋Šฅ 

 

 

 

4. ์‚ผ์„ฑ ๊ฐค๋Ÿญ์‹œ S21 ์นด๋ฉ”๋ผ : CNN ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ์•„์›ƒํฌ์ปค์‹ฑ ํšจ๊ณผ 

 

728x90

๋Œ“๊ธ€