1. Shallow Neural Networks (Quiz) X는 각 column별로 하나의 training example인 matrix이다. tanh를 activation function으로 사용하면 그 범위가 -1부터 1까지이므로 데이터를 0을 중심으로 모이게한다. 따라서 학습을 보다 간단하게 만들어버려서 제대로 학습이 이루어지지 않는다. binary classification의 output layer activation function은 sigmoid가 적절하다. axis = 0을 기준으로 sum을 하면 행이 날아가고 열이 남는다.(행을 합쳐서 각 열별로 표시) 반대로 axis = 1을 기준으로 sum을 하면 열이 날아가고 행이 남는다.(열을 합쳐서 각 행별로 표시) weight와 bias를 0으로..
Logistic Regression
1. More Derivative Examples 미분은 x축의 방향으로 아주 조금 움직였을 때 y축에서의 변화가 어떻게 될지 보여준다. 위 예시에서는 a의 값이 0.001(아주 작은 값)만큼 움직이면 f(a)는 얼만큼 움직이게 되는지 표현되어있다. f(a)가 많이 움직일수록 그래프에서의 slope(경사)가 급한 것으로 이해할 수 있다. 위 예시들의 미분값을 보면 a에 따라서 그 미분값(slope)도 다르다는 것을 알 수 있다. 즉, 함수의 형태에 따라 미분값이 변화하는 정도나 패턴도 다르다는 것이다. 어떤 식을 미분한 결과가 무엇인지 알지 모른다면 쉽게 검색하거나 교과서를 펼쳐보고 결과를 확인할 수 있다. 이전에 쌓아놓은 것이 없어 모른다면 검색해서 파악해두도록 하자. 2. Compuation Grap..
1. Binary Classification binary classification(이진 분류)는 위와 같이 '~이다, ~가 아니다'로 구분하는 것이 예가 될 수 있다. 이미지는 Red, Green, Blue 세 가지의 정보를 담고 있는 세 개의 채널로 구성된다. 그 크기를 표현하면 3 x 64 x 64가 된다.(예시) 이를 input X로 표현하면 12288(곱셈 결과)가 된다. 이것이 곧 차원이 된다. Notation input X는 nx차원에 속하고 정답 레이블(label)인 y는 0 또는 1로 이진 분류된다. training example m을 input과 label의 조합으로 생각하면 X를 m개의 열벡터 x로 구성된 행렬로, Y를 m개의 열벡터 y로 구성된 행렬로 생각할 수 있다. 이에 따라서 ..