Advanced techniques for training neural networks Weight Initialization Nonlinearity (Activation function) Optimizers Batch Normalization Dropout (Regularization) Model Ensemble Optimizers 좋은 학습 방법이란? global minimum 찾게 도와주는 방법 - 은 어렵다. local minimum을 빨리 찾는 방법 - 대부분의 알고리즘은 이 방법을 사용한다. 알파값(learning rate)을 크게 할지 작게 할지- 보편적으로 optimizer를 adam 알고리즘으로 사용한다. def mlp_model(): model = Sequential() model.ad..
Python
Advanced Multi-Layer Perceptron Advanced techniques for training neural networks Weight Initialization Nonlinearity (Activation function) Optimizers Batch Normalization Dropout (Regularization) Model Ensemble Weight Initialization SGD에서 w 초기값? Sigmoid에서 문제 - sigmoid 함수의 변수범위를 참고하여 -4~4로 초기화-> 대부분 출력값이 0, 1이 대부분이라. 학습이 안 됨 w값이 큰 게 문제다 -> N(0, 0.1) 정규분포로 초기화 -> sigmoid 분포 weight값은 +,-범위에 굉장히 작은 값이..
a.ravel() 원래 배열을 보여준다 따라서 값을 수정하면 원래 배열의 값 또한 영향받는다 ravel이 flatten보다 메모리를 덜 쓰니 더 빠르다 ravel은 라이브러리 수준 함수이다 a.flatten() 배열을 기본적으로 카피한다. 따라서 값을 수정해도 원래 배열의 값은 영향받지 않는다 따라서flatten은 ravel보다 상대적으로 느리다 다차원배열 객체의 메소드이다