RNNs are just neural networks that:
share weights across multiple layers,
take an input at each layer,
and have a variable number of layers
state_machine
internal_state
RNNs can be considered as layered, feed-forward networks with shared weights. // feedforward_network
Backpropagation Through Time (BPTT)
Truncated BPTT
When a sequence is large, unrolling RNNs is both computationally and memory prohibitive
Backpropagated gradients are truncated after K steps
– Carry hidden states forward in time forever
vanishing gradient : 시간이 지날수록 0으로
exploding gradient : 시간이 지날수록 폭발적으로 커지는
Very hard to capture long-term dependencies
gradient clipping : Scaling down the gradients
– Rescale norm of the gradients as it goes over a threshold (𝜂)
Resolving Vanishing Gradients // vanishing_gradient gradient_vanishing
기울기소실,gradient_vanishing 해결책
• A few approaches
– Proper initialization of the weight matrices
– Proper activation functions such as ReLU
• Derivative of ReLU is either 0 or 1
– Adopt gating mechanisms! //
gating_mechanism ...
gating_mechanism
장단기기억 LSTM
{
장단기 기억 ?
장단기 메모리 ?
RNN의 long-term dependency(장기 의존성)문제를 해결하기 위한 모델.
장단기 기억((딥 러닝 순환신경망의 장기 의존성(앞에서 수집한 자료가 뒤로 가면 사라져 신경망의 성능이 저하되는 것) 문제를 보완하기 위해, 앞부분의 정보를 오랫동안 기억하도록 설계한 정보 처리 모델))
input gate 입력 게이트
forget gate 망각 게이트? 삭제 게이트?
output gate 출력 게이트
cell state
LSTM보다 단순한 구조.
input gate와 forget gate가 결합된 update gate를 사용하여 정보 흐름을 제어.
}
...
1. LeNet ¶
LeNet
{
르넷?
Yann_LeCun 이름에서?
}
3. VGGNet ¶
VGGNet
{
pagename?
VGG넷 ?
Oxford의 VGG(Visual Geometry Group)에서 만든.
2014년 ILSVRC 2위.
16 layers.
}
5. ResNet ¶
F(x)+x=H(x)
F(x)=H(x)-x //// <- Residual
CNN은 H(x)를 얻는 게 목적인데,
ResNet은 F(x)+x를
최소화,minimization하는 것을 목적으로 한다.
x는 변할 수 없으므로, F(x)를 최소화하는 것이 목적이다. (즉 residual을 최소화하는 것이 목적이다.)
F(x) : weight layer를 통과한 값
identity mapping = skip connection = identity shortcut connection : x : weight layer를 통과하지 않은(바로 skip한) 값, input과 output이 같은 차원
residual mapping : 위 둘의 합, 즉 F(x) + x
residual block : 단위 구조?
residual network - residual block들이 쌓인 것, 즉 ResNet
7. MobileNet ¶
Built based upon depth-wise separable convolution
• Depth-wise convolution & point-wise convolution
8. EfficientNet ¶
scaling을 더 flexible하게?
depth width resolution 이 셋을 balance?
Misc