일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 총각네장어
- 오피스밋업
- 해외취업컨퍼런스
- 둔촌역장어
- #영어발음교정
- CommunicateWiththeWorld
- 소통챌린지
- 링글커리어
- #Ringle
- 영어시험
- 영어로전세계와소통하기
- #nlp
- 강동구장어맛집
- 링글경험담
- #링글
- 뉴노멀챌린지
- 성내동장어
- 링글리뷰
- 영어공부
- #직장인영어
- Ringle
- 화상영어
- #체험수업
- 영어공부법
- 링글
- 영어회화
- #영어공부
- 스몰토크
- #링글후기
- 장어랑고기같이
- Today
- Total
목록Lectures (18)
Soohyun’s Machine-learning
알고리즘이란?- 유한한 수의 규칙에 따라 구별 가능한 기호들을 조작해서, 입력 정수에서 출력 정수를 생성하기 위한 일반화된 작업을 정의하는 일 연산횟수 측정 - Big O notation (빅 오 표기법)보통 최악의 경우를 기준으로 체크를 한다. 또한 최고차항만 남기는데 어떤 코드가 N^2 + 3N + 5의 연산 시간을 가진다고 할 때, 뒤의 3N + 5같은 상수항들은 전부 무시되고 N^2만 체크하는 것이다. - BST (Binary Search Tree)의 원소 탐색 시간 복잡도는 O(log N)이다. 이렇게 매번 탐색 대상이 반절로 줄어드는 경우는 O(log N)의 시간 복잡도를 갖고 있다. merge sort의 merge, binary search 등등 - 동전 N개를 던졌을 때 경우의 수는..
워드 벡터를 만드는데, 먼저 count-based vectors를 만든다. co-occurrence matrix를 만든다. 말 그대로 frequency 기준. 하지만 이 matrix는 sparse하고 매우 large하기 때문에 dimensionality reduction을 해준다. 세부적으로는, SVD (generalized PCA의 일종)를 해서 top-k의 principal components를 선택한다. 그 다음에 같이 등장하는 words간의 embeddings를 plotting. 그 다음으로는, distinc_words, 즉, 단어별로 서로 분리한다. return은 corpus에 있는 words (unique), 그리고 단어들의 개수, 두 개임. list 형태, 그리고 그 다음에는 co-occur..
Big-O 계산하는 방법 - 우선, 어디까지나 대략적인 계산이지 정확한 시간을 측정하는 척도는 아니다.- 데이터 수가 적다면 무슨 알고리즘이든 빠를 것이다. 알고리즘간 차이를 느끼려면 데이터의 개수가 많아져야한다. 그런데.. 데이터가 많아질수록 O(.)는 커진다. 때문에 O(n^2)과 O(n+n^2)는 큰 차이가 없다. (쉽게 예시를 들자면 1억개의 데이터에 하나의 데이터를 더한다고 해서 체감할 수 있을 정도의 변화가 일어나지 않는다는 것이다. 그래서 일반적으로 constant - 상수 부분은 Big-O notation 에서 빼버린다.) First step >> N 정하기 In general : n개의 elements를 가진 array가 있을 때, logic상 각 element를 한 번씩만 체크한다면, ..
Types of Machine Learning - Supervised learning - with labels - Unsupervised learning - no labels - Reinforcement learning - know the objective, don't know how to achieve Thumbtack Question - H : probability of Head up - T : probability of Tail up Binomial distribution (Bernoulli experiment) is the discrete probability distribution of the number of successes in a sequence of n independent yes/no..
1억개의 data가 있다고 가정하고 특정 자료를 찾는다고 할 때, 자료구조에 대한 이해가 없이는 앞에서부터 순차적으로 찾아야만 한다. 운이 좋다면 몇 개만 검색하고도 찾을 수 있겠지만, 운이 나쁘다면 1억개 전체를 다 찾아본 다음에야 원하던 자료를 찾을 수도 있다. 1억이라는 숫자 중에서 99,999,999라는 숫자를 찾는다고 하면 99,999,998개의 자료를 찾아본 다음에야 가능한 것이다. 이때 자료구조나 알고리즘에 대한 이해를 갖고, structure를 잘 만들어두었다면.. binary search tree 등을 이용해서 훨씬 빠른 속도로 검색을 할 수 있다. 시간은 금이다. 다만, 실제 개발에서는 minimum 구현 시간과 maximum 개발 기간 두 가지 요소외에도 여러가지 제약이 있으므로, t..
__init__ : instantiation 과정에서 instance 생성시 __init__실행, 사라질때 __del__ 실행 world = HelloWorld()
202p 204p 여기에서의 positive definite 는 positive definite matrix 와 비슷하다고 보면 된다. (같다인지 비슷하다인지는 더 찾아봐야 함) Positive definite matrix : http://mskyt.tistory.com/79 positive definite 와 positive semi definite 간의 차이? : https://m.blog.naver.com/PostView.nhn?blogId=talesoff&logNo=130179795677&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F 우선 definite matrix는 hermit matrix에 속한다는데, hermit matrix 는 대칭 행렬을 복소수 환경..
IP는 #.#.#.# (number.number.number.number) 로 구성된다. (IPv4 시스템의 경우이다. IPv6에서는 #:#:#:#:#:#:#:# 로 표현되며, 16 bit 숫자를 0000 ~ fffff 의 16진수로 표현한다.) 각 number 별 범위는 0~255 이며, 각 숫자들을 표현하기 위해서는 8 bit 를 사용한다. 그래서 IP주소가 차지하는 것은 8 + 8 + 8 + 8 = 32 bit 이다. DHCP : Dynamic Host Configuration Protocol. IP 주소를 동적으로 얻게 해준다. 각 컴퓨터별 고유 IP 주소를 할당한다는 뜻이다. DNS : Domain Name System. URL을 IP주소 또는 그 반대로 변환해준다. CMD창에 nslookup ..
- activation function을 ReLU로 쓸 때, initial value는 보통 He initializer로 해준다. w = np.random.randn(n) * sqrt(2.0 / n) - Batch normalization : 많이 쓰는 테크닉이니 알아두는게 좋다. bad initialization에 강하다. Batch normalization layer는 보통 fully-connected layers 아니면 convolution layer 뒤에 바로 둔다. 그리고 non-linearity 앞에 둔다. (non-linearity는 activation function을 말하는건가???) - L2 regularization을 gradient descent parameter 를 update 할..
Mean squared error (MSE, 평균 제곱 오차): Error (residual)의 square에 대해 mean을 한 것, 이를 추정의 질적 평가척도로 삼게 됨 Cross entropy error (CEE) : 만약 multi-class classification을 하려고 한다면, softmax + CEE를 써야 하고, regression 을 하려고 한다면 MSE를 쓴다. RMSE : Root mean square error = Root mean square deviation (제곱근평균 제곱 오차) (제곱근 평균 제곱 편차) Error (residual)의 square에 대해 mean을 취하고, 이를 root mean 한 것
data type explain range uint8 부호없는 (unsigned) 8 bit, 1 byte integer 0~255 uint16 부호없는 16 bit, 2 byte integer 0~65535 Convolution feature Convolution layer의 input, output data를 feature map이라고 부른다. 여기 정의에서 두 함수를 image, filter라고 생각하면, filter를 striding하면서 image와 multiplication (matrix multiplication인지 elementwise multiplication인지는 모르겠음. 그냥 곱셈이라고만 되어 있다.)한 output을 적분 (덧셈) 해나간다는 뜻이 된다. - 여기에서 수행하는 적분(..
Gradient descent algorithm parameter( ) = Weight
Loss functions Hinge loss : (SVM 기반?) 잘 맞추면 0에 가깝게 되고, 못 맞추면 2에 가깝게 된다. cross-entropy loss = negative log likelihood (theta) ----------> parameter의 크기를 억제시킨다. YOLO (visual recognition?? 인듯?) x, y, w, h, c ----> condidence : 이 box 가 물체를 담고 있을 확률. c와 p를 곱하면 class 별 확률이 나온다. 그래서 이걸 기준으로 높은 것들을 보면 물건이 있을 확률이 높아진다. SSD (YOLO를 좀 더 정확하게 만든 것) IoU (intersection uniton) : 겹치는 영역 Smooth L1 : -1~1 까지의 구간은 ..
▼이게 ▼이렇게 되는 건 quotient rule을 사용해서 f(x)/g(x)의 x에 대한 미분은 ( f'(x)g(x) - f(x)g'(x) ) / g(x)^2 라서 Always check : the gradient with respect (w.r.t) to a variable should have the same shape as the variable Layer 를 체크할 때, input 은 layer로 안 친다. hidden layer 와 output layer 만 NN으로 쳐서 2 layer라고 하면 hidden layer 1개, output layer 1개라는 이야기. Table of Contents:- Introduction- Simple expressions, interpreting the g..
1) 2x2와 2x1을 어떻게 element-wise 하는가? 이때 broadcasting은 어떤식으로 되는거지? (python) 2) [ 1 ] 3 dimensional vector [ 2 ] [ 3 ] [[[ 1, 2, 3 ], 3 dimensional matrix [ 1, 2, 3 ], [ 1, 2, 3 ]]] vector는 1개의 matrix인데, [[[ 요거 차이가 나는 이유는? 두 개의 dimension 체크 방법이 만약 동일하다면 어떤 방식을 써서 하는거지? [1, 2, 3]도 3 dim vector라고 들었던 것 같은데 맞나? 3) contributing :indicator : mordulize implementation : analogies : regime: firing rate : qu..
k-Nearest Neighbor // kNN (케이 엔 엔 이라고 읽는다) // k 최근접 이웃 알고리즘 classify 나 regression 에 사용되며, 간단하게 보자면 비슷한 속성을 가질수록 비슷한 곳에 있다 - 는 개념인 듯 하다.image classification에는 그다지 효율적이지 않으나, 기본 Machine learning의 개념을 이해하는데에 도움이 된다면서 cs231n에서 보여준 것이다. 거리 함수.
차원의 저주 (curse of dimension) : 차원이 증가하면 그것을 표현하기 위한 data의 양이 기하급수적으로 증가한다는 것. dimensio이 증가할 수록 해당 공간의 크기가 기하급수적으로 증가하기 때문에, 동일한 개수의 data의 밀도는 차원이 증가할수록 sparse 해진다. 때문에 차원이 증가할수록 데이터의 분포 분석 또는 모델 추정에 필요한 샘플 데이터 개수가 기하급수적으로 증가하는 어려움을 표현한 용어이다. 그래서 핵심 파라미터들만 선별해서 문제의 dimension을 낮추려고 한다. (dimensionality reduction) 여기에 쓰이는게 PCA (주성분 분석)이고, CNN의 pooling (subsampling)도 같은 역할을 한다. 흐름, 규칙 발견이 어려운 고차원 문제를 ..
Computer Science for Beginners Harvard cs50 : http://www.edwith.org/connect_cs/joinLectures/10008Khan Academy : https://ko.khanacademy.org/computing/computer-science/algorithms/intro-to-algorithms/v/what-are-algorithms compiler : 고급 언어로 된 프로그램을 해당 언어의 기계어로 번역해주는 프로그램한번 컴파일이 되면 (다시 컴파일하지 않고) 반복적으로 수행이 가능하다. interpreter : 고급언어를 알아듣는 컴퓨터를 모사. (컴파일러와 대비되는 개념)원시 프로그램을 한꺼번에 번역하지 않고, 문장 단위로 번역해서 실행. 실행..