(20190612) [DL] Machine learning Basic #2

  • mini batch
  • loss function을 쓰는 이유
  • numeric difference
  • Gradient vs. Divergence vs. Curl
  • Gradient Descent
  • learning rate, η ( hyper parameter의 일종)
  • stochastic gradient descent (SGD)
  • 가중치 매개변수의 기울기
  • overfitting
  • Ridge regularization ( = L2 regularization)
  • regularization strength, λ
  • Normalization vs. Regularization
  • epoch

Q: bias 만 있으면 됬지, activation function은 왜 필요한 걸까??

출처: https://ml-cheatsheet.readthedocs.io/en/latest/nn_concepts.html#activation-functions

activation function이 없는 상황을 생각해보자. 그러면, ∑(w*x)+b의 값이 뉴런의 output으로 그대로 출력될 것이다. 하지만, 만약 이렇게 된다면, output 세기가 제각각이기 때문에, weight를 정하는데 어려움이 생긴다. activation function은 그 범위가 [0, 1] (or (0, 1) )이기 때문에, weight를 정할 때, 이 범위 안에서만 생각하면 된다. (위의 Fixed Range에 대한 추가 설명)

Non-linear는 단지, activation function 덕분에 비선형 영역도 구분할 수 있게 된다는 말임.
Continuously differentiable은 Gradient method로 weight를 수정할 때, 미분 가능해야 gradient를 구할 수 있다는 말.

** Overfitting과 Regularization **
overfitting은 training data에 대해서만 결과가 잘 나올 때의 문제 상황. 즉, 신경망을 구현과 결과 해석의 관점으로 볼 때, ‘결과 해석’에 대한 개선 방법임.
Regularization은 신경망으로 optimal solution을 구하는 일련의 과정에 보태는 과정으로, optimal error를 다룬다.


참고: https://de-novo.org/2018/04/17/%EC%9D%B8%EA%B3%B5%EC%8B%A0%EA%B2%BD%EB%A7%9D-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-1/#problem-to-solve

글쓴이

Seokyun HA

I'm majoring CSE. I'm in PDI Lab, and GA Lab, POSTECH.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중