Soohyun’s Machine-learning

misc NN information 본문

Lectures/CS231N (ML basic)

misc NN information

Alex_Rose 2017. 10. 30. 19:15

- activation function을 ReLU로 쓸 때, initial value는 보통 He initializer로 해준다.


w = np.random.randn(n) * sqrt(2.0 / n)



- Batch normalization : 많이 쓰는 테크닉이니 알아두는게 좋다. bad initialization에 강하다.


Batch normalization layer는 보통 fully-connected layers 아니면 convolution layer 뒤에 바로 둔다. 그리고 non-linearity 앞에 둔다. 

(non-linearity는 activation function을 말하는건가???)



- L2 regularization을 gradient descent parameter 를 update 할 때, every weight is decayed linearly towards zero


W += -lambda * W


Comments