일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 화상영어
- 총각네장어
- CommunicateWiththeWorld
- #링글후기
- 링글
- 스몰토크
- #영어공부
- #체험수업
- 장어랑고기같이
- 해외취업컨퍼런스
- 둔촌역장어
- 영어로전세계와소통하기
- #직장인영어
- 오피스밋업
- 링글커리어
- #영어발음교정
- 강동구장어맛집
- Ringle
- 영어시험
- #nlp
- 성내동장어
- 뉴노멀챌린지
- 영어공부
- 소통챌린지
- 링글리뷰
- 링글경험담
- 영어공부법
- #링글
- 영어회화
- #Ringle
- Today
- Total
목록Lectures/CS231N (ML basic) (6)
Soohyun’s Machine-learning
- activation function을 ReLU로 쓸 때, initial value는 보통 He initializer로 해준다. w = np.random.randn(n) * sqrt(2.0 / n) - Batch normalization : 많이 쓰는 테크닉이니 알아두는게 좋다. bad initialization에 강하다. Batch normalization layer는 보통 fully-connected layers 아니면 convolution layer 뒤에 바로 둔다. 그리고 non-linearity 앞에 둔다. (non-linearity는 activation function을 말하는건가???) - L2 regularization을 gradient descent parameter 를 update 할..
Loss functions Hinge loss : (SVM 기반?) 잘 맞추면 0에 가깝게 되고, 못 맞추면 2에 가깝게 된다. cross-entropy loss = negative log likelihood (theta) ----------> parameter의 크기를 억제시킨다. YOLO (visual recognition?? 인듯?) x, y, w, h, c ----> condidence : 이 box 가 물체를 담고 있을 확률. c와 p를 곱하면 class 별 확률이 나온다. 그래서 이걸 기준으로 높은 것들을 보면 물건이 있을 확률이 높아진다. SSD (YOLO를 좀 더 정확하게 만든 것) IoU (intersection uniton) : 겹치는 영역 Smooth L1 : -1~1 까지의 구간은 ..
▼이게 ▼이렇게 되는 건 quotient rule을 사용해서 f(x)/g(x)의 x에 대한 미분은 ( f'(x)g(x) - f(x)g'(x) ) / g(x)^2 라서 Always check : the gradient with respect (w.r.t) to a variable should have the same shape as the variable Layer 를 체크할 때, input 은 layer로 안 친다. hidden layer 와 output layer 만 NN으로 쳐서 2 layer라고 하면 hidden layer 1개, output layer 1개라는 이야기. Table of Contents:- Introduction- Simple expressions, interpreting the g..
1) 2x2와 2x1을 어떻게 element-wise 하는가? 이때 broadcasting은 어떤식으로 되는거지? (python) 2) [ 1 ] 3 dimensional vector [ 2 ] [ 3 ] [[[ 1, 2, 3 ], 3 dimensional matrix [ 1, 2, 3 ], [ 1, 2, 3 ]]] vector는 1개의 matrix인데, [[[ 요거 차이가 나는 이유는? 두 개의 dimension 체크 방법이 만약 동일하다면 어떤 방식을 써서 하는거지? [1, 2, 3]도 3 dim vector라고 들었던 것 같은데 맞나? 3) contributing :indicator : mordulize implementation : analogies : regime: firing rate : qu..
k-Nearest Neighbor // kNN (케이 엔 엔 이라고 읽는다) // k 최근접 이웃 알고리즘 classify 나 regression 에 사용되며, 간단하게 보자면 비슷한 속성을 가질수록 비슷한 곳에 있다 - 는 개념인 듯 하다.image classification에는 그다지 효율적이지 않으나, 기본 Machine learning의 개념을 이해하는데에 도움이 된다면서 cs231n에서 보여준 것이다. 거리 함수.
차원의 저주 (curse of dimension) : 차원이 증가하면 그것을 표현하기 위한 data의 양이 기하급수적으로 증가한다는 것. dimensio이 증가할 수록 해당 공간의 크기가 기하급수적으로 증가하기 때문에, 동일한 개수의 data의 밀도는 차원이 증가할수록 sparse 해진다. 때문에 차원이 증가할수록 데이터의 분포 분석 또는 모델 추정에 필요한 샘플 데이터 개수가 기하급수적으로 증가하는 어려움을 표현한 용어이다. 그래서 핵심 파라미터들만 선별해서 문제의 dimension을 낮추려고 한다. (dimensionality reduction) 여기에 쓰이는게 PCA (주성분 분석)이고, CNN의 pooling (subsampling)도 같은 역할을 한다. 흐름, 규칙 발견이 어려운 고차원 문제를 ..