[Tensorflow] Reguralization

Reguralization

Overfitting

학습 데이터를 과하게 잘 학습하여 실제의 오차는 증가하는 것을 말한다. 위 그래프에서 처럼 Training Error는 감소하지만, Test Error는 증가하는 지점을 말한다.

Batch

Batch Gradient Descent

Stochastic gradient descent(SGD)

Batch Normalization

딥러닝 모델의 구조 : 입력층 -> 은닉층 -> 출력층
입력층의 데이터는 쉽게 normalization 가능하나, 이후 레이어들의 입력은 쉽지 않음.
이를 해결해 주는 것이 Batch Normalization
각 feature 별로 평균과 표준편차를 구해준 다음 normalize 해주고, scale factor와 shift factor를 이용하여 새로운 값을 만들어준다.

Dropout

hidden Layer 갯수가 많아지면 학습능력은 좋아지나, overfitting에 빠질 가능성 높고, 학습시간 길어짐.
학습 성능 개선을 위해 모델을 결합하고, 각각 무작위로 선정한 네트웍의 일부를 생략하는 것.
생략한 네트웍은 학습의 영향을 끼치지 않게 된다.
weight들이 서로 동조화 되는 현상이 발생할 수 있는데 무작위로 생략을 하면서 동조화 현상을 피할 수 있다.
hidden unit의 활성도가 조절되어 독립적으로 feature를 얻을 수 있고, 서로 간의 correlation이 낮은 feature를 얻을 수 있게 된다.

별토끼 DEVLOG