[cs224n] 6κ° λ΄μ© μ 리
π‘ μ£Όμ : Language models and RNN (Recurrent Neural Network)
π ν΅μ¬
- Task : λ¬Έμ₯μ΄ μ£Όμ΄μ§ λ μ§κΈκΉμ§ λμ¨ λ¨μ΄λ€ μ΄νμ λμ¬ λ¨μ΄λ₯Ό μμΈ‘
- RNN : λ€μμ μ¬ λ¨μ΄λ₯Ό μμΈ‘νλ κ³Όμ λ₯Ό ν¨κ³Όμ μΌλ‘ μννκΈ° μν΄ λμ ν NN μ μΌμ’
π λͺ©μ°¨ / λ΄μ©
1. Language model
(1) Language model μ΄λ
β μ μ
- λ¨μ΄μ μνμ€(λ¬Έμ₯) μ λν΄ μΌλ§λ μμ°μ€λ¬μ΄ λ¬Έμ₯μΈμ§λ₯Ό 'νλ₯ ' μ μ΄μ©ν΄ μμΈ‘νλ λͺ¨λΈ
- Language modeling = μ£Όμ΄μ§ λ¨μ΄μ μνμ€μ λν΄ λ€μμ λνλ λ¨μ΄κ° μ΄λ€ κ²μΈμ§λ₯Ό μμΈ‘νλ μμ
- νΉμ λ¬Έμ₯μ νλ₯ μ ν λΉνλ€. λ¬Έμ₯μ λ¨μ΄ w(1), w(2) , ... w(t) κ° μ£Όμ΄μ‘μ λ λ€μμ μ¬ λ¨μ΄ w(t+1) μ νλ₯
β νμ©
- λ¬Έμ₯μ νλ₯ λλ λ¨μ΄μ λ±μ₯ νλ₯ μ μμΈ‘
- κΈ°κ³λ²μ, μμ±μΈμ, μλμμ±(ex. κ΅¬κΈ κ²μ)
(2) N-gram Language model
β μ μ
- NN (λ₯λ¬λ λͺ¨λΈλ€) μ΄μ μ μ¬μ©λμλ μΈμ΄λͺ¨λΈμ΄λ€.
- μμΈ‘μ μ¬μ©ν μ λ¨μ΄λ€μ κ°μ (window) λ₯Ό μ νμ¬ λͺ¨λΈλ§νλ λ°©λ² (μ΄μ μ λ±μ₯ν n-1 κ°μ λ¨μ΄λ€μ μ΄μ©ν΄ λ€μ λ¨μ΄λ₯Ό μμΈ‘νλ€)
- N-gram : n κ°μ μ°μ΄μ λ¨μ΄ λμΉ
- λ€μμ μ¬ λ¨μ΄λ μ΄μ μ λ±μ₯ν λ¨μ΄λ€μλ§ μν₯μ λ°λλ€λ κ°μ νμ, corpus μμ counting μ νλ λ°©μμΌλ‘ νλ₯ μ ꡬνλ€.
- N-gram λ¬Έμ₯μ΄ λνλ νλ₯ κ³Ό (N-1) gram μ΄ λνλ νλ₯ μ μ΄μ©ν΄ νμ¬ λ¬Έμ₯μ΄ μ£Όμ΄μ‘μ λ λ€μ λ¨μ΄κ° μ¬ νλ₯ μ κ³μ°ν΄λΌ μ μλ€. μ΄λ κ³μ°μ νμν νλ₯ μ ν° corpus μμ 'μΆν λΉλ' λ₯Ό μΈμ μ»μ μ μλ€.
- N-gram μ λΉλμ λν ν΅κ³λ₯Ό μμ§νκ³ μ΄λ₯Ό λ€μ λ¨μ΄λ₯Ό μμΈ‘νλλ° μ¬μ©
β κ³μ° μμ
β N-gram λͺ¨λΈμ λ¬Έμ μ
- Sparsity λ¬Έμ : n (window ν¬κΈ°) κ° μ»€μ§μλ‘ μμ’μμ§λ©° μΌλ°μ μΌλ‘ n < 5 λ‘ μ€μ ν¨
- λΆλͺ¨μλ smoothing λ°©μμ μ°μ§ μκ³ backoff λ°©μμ μ°λ μ΄μ : λΆλͺ¨κ° 0μΈ κ²½μ°κ° λ μ¬κ°νκΈ° λλ¬Έ
2. Storage λ¬Έμ
- n μ΄ μ»€μ§κ±°λ corpus κ° μ¦κ°νλ©΄ Corpus λ΄ λͺ¨λ n-gram μ λν count λ₯Ό μ μ₯ν΄μ€μΌ νκΈ° λλ¬Έμ λͺ¨λΈμ ν¬κΈ°κ° μ¦κ°νλ€. (μ€νμ΄ μ€λ걸리λ λ¨μ )
3. Incoherence λ¬Έμ
π€ N-gram λ°©μμ μμ λ¨μ΄λ€λ§ μ΄μ©νλκΉ context (λ¬Έλ§₯)μ λ΄κΈ°μ νκ³κ° μλ κ² κ°μ!
- λ€μ λ¨μ΄λ μμ λ¨μ΄λ€μκ²λ§ μν₯μ λ°λλ€λΌλ κ°μ λλ¬Έμ μ΄μ λ¬Έλ§₯μ μΆ©λΆν λ°μνμ§ λͺ»ν¨
- μ¦ λ€μ λ¨μ΄λ₯Ό μμΈ‘νλλ° μμ£Ό μ€μν μ λ³΄κ° κ·Έ λ¨μ΄μ λ¬Έμ₯μμ λ©λ¦¬μ μμΉνλ©΄ κ·Έ μ 보λ₯Ό λμΉκ² λ¨
- N μ ν¬κΈ°λ₯Ό λ리면 μ΄λμ λ ν΄κ²°ν μ μμ§λ§ sparsity λ¬Έμ κ° μ¬ν΄μ§λ€.
β Process μ΄ν΄λ³΄κΈ°
- κ°λ₯μ± μλ λ¨μ΄λ€μ΄ νλ₯ λΆν¬λ‘ λμΆλ¨
- condition 쑰건 μ ν → sampling νλ₯ λΆν¬μμ μ μΌ νλ₯ μ΄ λμ λ¨μ΄λ₯Ό μ ν → condition 쑰건 μ ν ... λ°λ³΅
(3) Window-based Neural Network Language model (NNLM)
β μ μ
- N-gram μ λ¬Έμ μ μΈ Sparsity (μΆ©λΆν λ°μ΄ν°κ° μλ€λ©΄ μΈμ΄λ₯Ό μ νν λͺ¨λΈλ§ νμ§ λͺ»ν¨) , Incoherence λ₯Ό ν΄κ²°νκΈ° μν΄ μ μλ μ κ²½λ§ κΈ°λ°μ λͺ¨λΈ
- ν¬μ λ¬Έμ λ κΈ°κ³κ° λ¨μ΄ κ° μ μ¬λλ₯Ό μ μ μλ€λ©΄ ν΄κ²°ν μ μκ² λ¨ : νλ ¨ μ½νΌμ€μ μλ λ¨μ΄ μνμ€μ λν μμΈ‘μ΄λΌλ μ μ¬ν λ¨μ΄κ° μ¬μ©λ λ¨μ΄ μνμ€λ₯Ό μ°Έκ³ νμ¬ μ νν μμΈ‘μ μνν μ μμ π μ΄λ¬ν μμ΄λμ΄λ₯Ό κ°μ§κ³ νμν μΈμ΄λͺ¨λΈμ΄ NNLM
- λ€μμ λ±μ₯ν λ¨μ΄λ₯Ό μμΈ‘νλ μΈμ΄λͺ¨λΈμ΄λ©΄μ λμμ λ¨μ΄μ 'distributed representation' (λ¨μ΄ λ²‘ν° νν) μ νμ΅νλ€.
- NNLM λ N-gram κ³Ό μ μ¬νκ² μ ν΄μ§ n κ°μ λ¨μ΄λ§μ μ°Έκ³ ν΄μ (μλμ° λ²μ) μμΈ‘μ μννλ€.
β¨ x μ μνμ€λ₯Ό window μ¬μ΄μ¦ λ§νΌ μ λ ₯ π λ¨μ΄λ₯Ό μν«μΈμ½λ© 벑ν°λ‘ νν π κ° λ¨μ΄μ λν΄ μλ² λ© λ²‘ν°λ₯Ό λ½μλ΄κ³ μ΄λ₯Ό μ΄μ΄λΆμΈλ€ (e) π hidden layer π Softmax λ₯Ό ν΅κ³Ό π κ·Έ λ€μ λ¨μ΄κ° λνλΌ 'νλ₯ λΆν¬' λ₯Ό output μΌλ‘ λμΆ
βΎ input : λ¨μ΄λ€μ μνμ€
π₯ output : λ€μ λ¨μ΄μ λν νλ₯ λΆν¬
β μ₯μ
- λ¨μ΄ μλ² λ©μ ν΅ν΄ Sparsity λ¬Έμ λ₯Ό ν΄κ²°
- κ΄μΈ‘λ n-gram μ μ μ₯ν νμκ° μμ΄μ§ ← μλ² λ© λ°©μμ ν΅ν΄ κ°λ³ νλ₯ μ΄ μλλΌ μ 체 νλ₯ λΆν¬λ‘ ννλκΈ° λλ¬Έ
β λ¨μ
- κ³ μ λ window ν¬κΈ°κ° λ무 μλ€. (n<5)
- Window ν¬κΈ°κ° 컀μ§μλ‘ W λ 컀μ§λ€ → window ν¬κΈ°μ νκ³
- κ° λ²‘ν°λ€μ μμ ν λ€λ₯Έ κ°μ€μΉ Wκ° κ³±ν΄μ§λ―λ‘ λ¨μ΄μ λ¨μ΄ κ°μ΄ No symmetry νλ€λ λ¬Έμ μ μ΄ μ‘΄μ¬
β W μμμ symmetry
β http://norman3.github.io/prml/docs/chapter05/1.html
- κ³΅κ° λμΉμ± : feed-forward λ€νΈμν¬μμ μλ‘ λ€λ₯Έ wμ λν΄μλ λμΌν μ λ ₯μ λν΄ λμΌν μΆλ ₯ κ²°κ³Όλ₯Ό λ§λ€μ΄λΌ μ μλ μ±μ§μ μλ―Ένλ€.
- Sign-flip symmetry : λΆνΈλ§ λ°λμΈ κ²½μ°μ λ λ¨κ³λ₯Ό κ±°μΉλ©΄ λμΌν κ²°κ³Όλ₯Ό λ§λ€ μ μλ€.
- Interchange symmetry : κ°μ λ μ΄μ΄ λ΄ μμμ νλ μ λ 2κ°μ λν΄ μλ‘ μμΉλ₯Ό λ°κΎΈμ΄λ μ΅μ’ μΆλ ₯κ°μ λ³νκ° μλ€.
π€¨ κ°μ€μΉ κΉ¨μ§
β λ¨μ΄μ λ¨μ΄κ° symmetry νμ§ μλ€λ κ²μ μλ―Έ
- 룩μ ν μ΄λΈ : μν«λ²‘ν°μ νΉμ±μΌλ‘ μΈν΄ i λ²μ§Έ μΈλ±μ€μ 1μ΄λΌλ κ°μ κ°μ§κ³ κ·Έ μ΄μΈμλ 0μ κ°μ κ°μ§λ μν«λ¨μ΄ 벑ν°μ κ°μ€μΉ W νλ ¬μ κ³±μ μ¬μ€μ Wνλ ¬μ i λ²μ§Έ νμ κ·Έλλ‘ μ½μ΄μ€λ κ² (lookup) κ³Ό λμΌνλ€λ κ°λ
- 룩μ ν μ΄λΈμ μμ μ κ±°μΉλ©΄ V μ°¨μμ κ°μ§λ μν«λ²‘ν°λ μ΄λ³΄λ€ λ μ°¨μμ΄ μμ Mμ°¨μμ λ¨μ΄λ‘ λ§€νμ΄ λλ€. ν μ΄λΈ 룩μ κ³Όμ μ κ±°μΉ ν μ΄ λ¨μ΄μ 벑ν°λ₯Ό μλ² λ© λ²‘ν°λΌκ³ νλ€.
- 벑ν°μ κ°μ€μΉ νλ ¬μμμ μ°μ°μ κ° λ²‘ν°λ€μ΄ κ°κ° λ€λ₯Έ W κ°μ€μΉ λΆλΆμ κ³±νκ² λλ©΄μ κ° λ¨μ΄λ€μ΄ No symmetry νκ² λλ λ¬Έμ μ μ κ°μ§κ² λλ€.
π κ°μ λ¨μ΄κ° λ€λ₯Έ μμΉμ λνλλ©΄ λ€λ₯΄κ² μ²λ¦¬λλ€. λ¨μ΄μ μμΉμ λ°λΌ κ³±ν΄μ§λ κ°μ€μΉκ° λ¬λΌμ§λ―λ‘ λͺ¨λΈμ΄ λΉμ·ν λ΄μ©μ μ¬λ¬ λ² νμ΅νλ λΉν¨μ¨μ±μ κ°μ§λ€.
2. Recurrent Neural Network (RNN)
(1) RNN
β λΉκ΅
- FFNN : μλμΈ΅μμ νμ±ν ν¨μλ₯Ό μ§λ κ°μ μ€μ§ μΆλ ₯μΈ΅ λ°©ν₯μΌλ‘λ§ ν₯νλ μ κ²½λ§
- RNN μ μλμΈ΅μ λ Έλμμ νμ±ν ν¨μλ₯Ό ν΅ν΄ λμ¨ κ²°κ³Όκ°μ μΆλ ₯μΈ΅ λ°©ν₯μΌλ‘λ 보λ΄λ©΄μ λ€μ μλμΈ΅ λ Έλμ λ€μ κ³μ°μ μ λ ₯μΌλ‘ 보λ΄λ νΉμ§μ κ°μ§κ³ μλ€.
β μ μ
- μνμ€ λ°μ΄ν°λ₯Ό λͺ¨λΈλ§νκΈ° μν΄ λ±μ₯ν λͺ¨λΈλ‘ κΈ°μ‘΄ NN κ³Ό λ€λ₯Έμ μ 'κΈ°μ΅(hidden state)' λ₯Ό κ°μ§κ³ μλ€λ μ μ΄λ€.
- κΈ°μ‘΄ μ κ²½λ§μ λͺ¨λ μ λ ₯μ΄ κ°κ° λ 립μ μ΄λΌκ³ κ°μ νλλ°, NLP μμλ μ΄λ¬ν κ°μ μ μ μ©μ΄ μ³μ§ μμ μ μλ€. λ¬Έμ₯μμ λ€μμ λμ¬ λ¨μ΄λ₯Ό μΆμΈ‘νκ³ μΆλ€λ©΄ μ΄μ μ λμ¨ λ¨μ΄λ€μ μ°μμ±μ μλ κ² μμ²΄κ° ν° λμμ΄ λ μ μλ€.
- Recurrent : μ§μ μμ μ μλμΈ΅μμ μμ±λ hidden states λ₯Ό λ€μ μμ μ input μΌλ‘ μ λ¬νλ κ²μ΄ νΉμ§. μ¦ μΆλ ₯ κ²°κ³Όλ μ΄μ μ κ³μ° κ²°κ³Όμ μν₯μ λ°λλ€.
- λμΌν κ°μ€μΉ W λ₯Ό λ°λ³΅μ μΌλ‘ μ μ© π λ¨μ΄κ°μ symmetric νμ§ μμλ NNLM μ λ¨μ μ 보μ
#python code
hidden_state_t = 0 # μ΄κΈ° μλ μνλ₯Ό 0(벑ν°)λ‘ μ΄κΈ°ν
for input_t in input_length: # κ° μμ λ§λ€ μ
λ ₯μ λ°λλ€.
output_t = tanh(input_t, hidden_state_t) # κ° μμ μ λν΄μ μ
λ ₯κ³Ό μλ μνλ₯Ό κ°μ§κ³ μ°μ°
hidden_state_t = output_t # κ³μ° κ²°κ³Όλ νμ¬ μμ μ μλ μνκ° λλ€.
β νκΈ°
π hμ μν μ ν΅ν΄ λ©λͺ¨λ¦¬(κΈ°μ΅λ ₯) μ΄ μλ κ³μΈ΅μ΄λΌ λΆλ₯Έλ€.
β μ₯μ
- μ΄μ μ μ 보λ€μ νμ©ν μ μλ€.
- μνμ€ μμμ λ§κ² νλμ© μ λ ₯ν΄μ£ΌκΈ° λλ¬Έμ μ λ ₯μ κΈΈμ΄μ μ νμ΄ μμ
- μ΄λ‘ μ μΌλ‘λ κΈΈμ΄κ° κΈ΄ timestamp t μ λν΄ μ²λ¦¬κ° κ°λ₯νλ€. (μ΄λ€ κΈΈμ΄μ ν μ€νΈμ΄λ κ³μ° κ°λ₯)
- λ§€ step λ§λ€ λμΌν κ°μ€μΉ Wκ° μ μ©λκΈ° λλ¬Έμ μ λ ₯μ λ°λ₯Έ λͺ¨λΈμ ν¬κΈ°κ° μ¦κ°νμ§ μλλ€. λͺ¨λΈμ ν¬κΈ°λ Wh μ We λ‘ κ³ μ λμ΄ μλ€.
- λ§€ step μ λμΌν κ°μ€μΉλ₯Ό μ μ©νλ―λ‘ symmetry νλ€
β λ¨μ
- λ¨μ΄κ° νλμ© μ λ ₯λκΈ° λλ¬Έμ μμ°¨μ μΈ κ³μ°μ΄ νμνμ¬ Recurrent κ³μ°μ΄ λ리λ€.
- μ 보μ μμ€ λ¬Έμ (κΈ°μΈκΈ° μμ€ λ¬Έμ ) λλ¬Έμ μ€μ λ‘λ κΈΈμ΄κ° κΈ΄ timestep μ λν΄μλ μ²λ¦¬κ° λκΈ° μ΄λ ΅λ€. μ¦, λ¨Ό κ³³μ μλ λ¨μ΄ μ 보λ₯Ό λ°μνκΈ°λ μ΄λ ΅λ€λ μλ―Έμ΄λ€. = μ€μν μ λ ₯κ³Ό μΆλ ₯ λ¨κ³ μ¬μ΄μ κ±°λ¦¬κ° λ©μ΄μ§μλ‘ κ·Έ κ΄κ³λ₯Ό νμ΅νκΈ° μ΄λ €μμ§ π λ³ν λͺ¨λΈμΈ LSTM, attention λͺ¨λΈμ΄ μ μ
(2) RNN training
β κ³Όμ
1. λ¨μ΄λ€λ‘ μ΄λ£¨μ΄μ§ μνμ€μ corpus λ₯Ό μ€λΉνλ€.
2. λ¨μ΄λ€μ μμλλ‘ RNN μ μ λ ₯νκ³ λ§€ λ¨κ³ t μ λν μΆλ ₯λΆν¬λ₯Ό κ³μ°νλ€.
3. t λ¨κ³μ λν μμ€ν¨μ Cross-Entropy λ₯Ό κ³μ°νλ€.
4. μ 체 training set μ λν μμ€μ ꡬνκΈ° μν΄ νκ· κ°μ ꡬνλ€.
* μ 체 corpus μ λν loss μ κΈ°μΈκΈ° κ³μ°μ μκ°μ΄ λ§μ΄ 걸리λ―λ‘ μ€μ λ‘ λ¬Έμ₯μ΄λ λ¬Έμ λ¨μλ‘ μ λ ₯μ μ£ΌκΈ°λ νλ€.
* νΉμ SGD λ₯Ό ν΅ν΄ μ΅μ νλ₯Ό νκΈ°λ νλ€.
β Backpropagation
- κΈ°μ‘΄ μμ νμ λ€λ₯΄κ² μν μ κ²½λ§μ κ³μ°μ μ¬μ©λ μκ°, μμ μ μκ° μν₯μ μ€λ€. λ°λΌμ μκ°μ λ°λ₯Έ μμ νλΌλ BPTT λ₯Ό μ¬μ©νκ² λλ€.
- BPTT(Backpropagation Through Time) λ°©μ : timestep μ λ°λΌ gradient λ₯Ό λν΄κ°λ€.
κ° λ μ΄μ΄λ§λ€μ weightλ μ€μ λ‘ λμΌν μ¨μ΄νΈμ¬μΌ νλ―λ‘ λͺ¨λ μ λ°μ΄νΈλ λμΌνκ² μ΄λ£¨μ΄μ ΈμΌ νλ€. λ°λΌμ κ° layerλ§λ€ λμΌν μμΉμ weightμ ν΄λΉνλ λͺ¨λ derivative errorλ₯Ό λ€ λνλ€μ (λνλ κ±°λ νκ· λ΄λκ±°λ μ¬μ€μ κ°μ μλ―Έ) weightλ₯Ό 1λ² μ λ°μ΄νΈ ν΄μ€λ€.
(3) RNN μ νμ©
β RNN μ μ μΆλ ₯μ task λͺ©μ μ λ°λΌ μΌλ§λ μ§ λ¬λΌμ§ μ μλ€.
- One-to-One : μνμ μΈ λΆλΆμ΄ μμΌλ―λ‘ RNN μ΄ μλ
- One to many : κ³ μ ν¬κΈ°λ₯Ό μ λ ₯ν΄ μνμ€λ₯Ό μΆλ ₯νλ€. μλ₯Όλ€μ΄ μ΄λ―Έμ§λ₯Ό μ λ ₯ν΄ μ΄λ―Έμ§μ λν μ€λͺ μ λ¬Έμ₯μΌλ‘ μΆλ ₯νλ μ΄λ―Έμ§ μΊ‘μ μμ± task λ₯Ό μννλ€.
- Many to one : μνμ€λ₯Ό μ λ ₯ν΄ κ³ μ ν¬κΈ°λ₯Ό μΆλ ₯νλ€. μλ₯Όλ€μ΄ λ¬Έμ₯μ μ λ ₯ν΄ κΈλΆμ μ λλ₯Ό μΆλ ₯νλ κ°μ λΆμκΈ° task λ₯Ό μννλ€.
- Many to Many : μνμ€λ₯Ό μ λ ₯ν΄ μνμ€λ₯Ό μΆλ ₯νλ€. μλ₯Όλ€μ΄ μμ΄λ₯Ό νκ΅μ΄λ‘ λ²μνλ μλ λ²μκΈ° task λ₯Ό μννλ€.
- Many to Many(2) : λκΈ°νλ μνμ€λ₯Ό μ λ ₯ν΄ μνμ€λ₯Ό μΆλ ₯νλ€. μλ₯Όλ€μ΄ λ¬Έμ₯μμ λ€μμ λμ¬ λ¨μ΄λ₯Ό μμΈ‘νλ μΈμ΄ λͺ¨λΈ task (μ΄λ² chapter μμ λ€λ£¬ λ΄μ©) μ μννλ€.
β tagging : part-of-speech tagging, named entity recognition
β λ¬Έμ₯λΆλ₯/κ°μ λΆλ₯
β encoder module : question answering, machine translation
β generate text : speech recognition, machine translation, summarization
3. Evaluating
(1) Perplexity
β μ μ
- μΈμ΄λͺ¨λΈμ μ£Όμ΄μ§ κ³Όκ±° λ¨μ΄ μ 보λ‘λΆν° λ€μμ μΆνν λ¨μ΄μ νλ₯ λΆν¬λ₯Ό μΆλ ₯νλ λͺ¨λΈ
- μΈμ΄λͺ¨λΈμ νκ°νλ λνμ μΈ μ²λκ° Perplexity π μΆνν λ¨μ΄μ νλ₯ μ λν μμ
- κ°μ΄ μμμλ‘ μ’μ μΈμ΄λͺ¨λΈμ΄λΌ ν μ μλ€.
β μμ νν
- μμ€ν¨μλ₯Ό λμ νμ¬ e^L ννλ‘ μ 리λ¨
β νμ΄μ€λΆ μ€ν κ²°κ³Ό
π λ μμ보기
- μλ°©ν₯ μν μ κ²½λ§ : μμ tμμμ μΆλ ₯κ°μ μμΈ‘ν λ μ΄μ μμ μ μ λ ₯λΏλ§ μλλΌ, μ΄ν μμ μ μ λ ₯ λν μμΈ‘μ κΈ°μ¬ν μ μλ€λ μμ΄λμ΄μ κΈ°λ°
π μ€μ΅ μλ£
- pytorch λ¬Έμ-λ¨μ RNNμΌλ‘ μ΄λ¦ λΆλ₯νκΈ° : https://tutorials.pytorch.kr/intermediate/char_rnn_classification_tutorial
κΈ°μ΄λΆν° μμνλ NLP: λ¬Έμ-λ¨μ RNNμΌλ‘ μ΄λ¦ λΆλ₯νκΈ° — PyTorch Tutorials 1.11.0+cu102 documentation
Note Click here to download the full example code κΈ°μ΄λΆν° μμνλ NLP: λ¬Έμ-λ¨μ RNNμΌλ‘ μ΄λ¦ λΆλ₯νκΈ° Author: Sean Robertson λ²μ: ν©μ±μ λ¨μ΄λ₯Ό λΆλ₯νκΈ° μν΄ κΈ°μ΄μ μΈ λ¬Έμ-λ¨μ RNNμ ꡬμΆνκ³ νμ΅ ν
tutorials.pytorch.kr
- tensorflow λ‘ RNN μμ±ν΄λ³΄κΈ° : https://wikidocs.net/22886
1) μν μ κ²½λ§(Recurrent Neural Network, RNN)
RNN(Recurrent Neural Network)μ μ λ ₯κ³Ό μΆλ ₯μ μνμ€ λ¨μλ‘ μ²λ¦¬νλ μνμ€(Sequence) λͺ¨λΈμ λλ€. λ²μκΈ°λ₯Ό μκ°ν΄λ³΄λ©΄ μ λ ₯μ λ²μνκ³ μ νλ ...
wikidocs.net
- ββ ν μ€νΈ μμ± μμ : https://wikidocs.net/45101
6) RNNμ μ΄μ©ν ν μ€νΈ μμ±(Text Generation using RNN)
λ€ λ μΌ(many-to-one) ꡬ쑰μ RNNμ μ¬μ©νμ¬ λ¬Έλ§₯μ λ°μν΄μ ν μ€νΈλ₯Ό μμ±νλ λͺ¨λΈμ λ§λ€μ΄λ΄ μλ€. ##**1. RNNμ μ΄μ©νμ¬ ν μ€νΈ μμ±νκΈ°** μλ₯Ό ...
wikidocs.net