Kernel Idea

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

Tags more

Archives

Today

Total

관리 메뉴

Soohyun’s Machine-learning

Kernel Idea 본문

Lectures/Machine Learning Basic

Kernel Idea

Alex_Rose 2017. 11. 10. 20:10

202p

204p

여기에서의 positive definite 는 positive definite matrix 와 비슷하다고 보면 된다. (같다인지 비슷하다인지는 더 찾아봐야 함)

Positive definite matrix : http://mskyt.tistory.com/79

positive definite 와 positive semi definite 간의 차이? :

https://m.blog.naver.com/PostView.nhn?blogId=talesoff&logNo=130179795677&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F

우선 definite matrix는 hermit matrix에 속한다는데, hermit matrix 는 대칭 행렬을 복소수 환경에 맞도록 확장한걸로 생각할 수 있다는데.. 복소수를 쓰지 않는 분야에서는 symmetric matrix 라고 보면 된다.

1. 모든 eigenvalue가 >=0 인 경우 positive - semi definite matrix

2. 모든 eigenvalue가 >0 인 경우 positive definite matrix

3. 모든 eigenvalue가 <=0 인 경우 negative - semi definite matrix

4. 모든 eigenvalue가 <0 인 경우 negative definite matrix

5. eigenvalue가 양수, 음수 섞인 경우 indefinite matrix

eigenvalue (한국어) : https://ko.wikipedia.org/wiki/%EA%B3%A0%EC%9C%B3%EA%B0%92

eigenvalue (영어) : https://en.wikipedia.org/wiki/Eigenvalues_and_eigenvectors

205p

positive definite는 기본적으로 matrix에 적용시키는 것이다. ML같은 경우 특히 optimization에서 많이 나온다.

위의 정의 자체는 어떤 벡터를 가져와도 스칼라 값을 적용시켜서 곱하면 이걸 zero나 negative로 만드는 것이 존재하지 않으면 positive definite 하다고 한다. 이걸 간단하게 알아내는 방법은 A의 eigenvalue를 찾아보고 negative가 없으면 positive definite 하다고 볼 수 있다.

diagonal element를 갖는 matrix ...

208p

209p

요 kernel function을 inner product로 하는 파이가 존재한다 = 그게 mercer's theorem 이다.

(파이의 inner product가 k랑 항상 똑같은 게 존재한다)

k가 positive definite 하면 파이가 존재한다 가 머서의 띠오렘이다.

문제는 k가 P.D. 하면 요거에 해당되는 파이가 존재한다는 전혀 trivial 하지 않다.

210p

저기 위에 있는 공식이 다 inequality constraint 다.

solution은 boundary에 있거나, 아니거나 (이게 KKT condition의 마지막 조건이다)

211p

kenelization을 한다!그러면 representer theorem 부터 시작을 한다 225p

아래부터 Fisher discriminant analysis

213p

215p를 먼저 보고 와라.

Nc는 c class인 data의 수. emprical covariance를 각각의 클래스의 covariance matrix. ....

위의 식을 optimization 한다고 하면.. 216p로..

214p

215p

boundary 설정을 어디로 하는게 더 좋은가?

w1에는 class1 과 class2가 있다. overlap이 저 정도로 된다.

w2에서는 class1과 class2의 overlap이 엄청 크다.

overlap 기준을 놓고 봤을때 그게 작게 되는 것을 찾고 싶다. 근데 그걸 어떻게 formulation하느냐

mean의 variance. 각 클래스의 mean의 variance. 평균의 variance가 커질수록 좋겠다 - 라고 하고, 각 class 내부의 variance들의 평균은 작았으면 좋겠다 - 라고 한다면..

class 간의 비율을 가장 크게 만드는 (max) 걸 찾고 싶다.

이거의 식이.. 213p의 식임.

216p

먼저 이걸 손으로 풀어보고, 그럼 analysis 되는거고, 아니면 컴퓨터 한테 시키면 된다.

217p

218p

219p

220p

221p

222p

223p

224p

225p

226p

227p

228p

230p

ridge regression = linear regression 이다.

231p

ridge regression을 넣은 이유? 이게 없으면 안 풀리니까 넣은거다.

이게 frequentist의 view 이다.

232p

아래는 bayesian의 view이다.

233p

234p

아래의 W ML << 요 공식이 closed form solution이다.

235p

MAP = Maximum aposterior ...

베이지안 뷰는 prior를 집어넣어서 W MAP를 구한 것.

236p

237p

기계학습 문제는 전부 다 optimization 문제다. 여기 슬라이드의 내용이 내가 전하고 싶은 내용이다.

묻지도 따지지도 않고 미분부터 해라!!

저작자표시 비영리 동일조건 (새창열림)

'Lectures > Machine Learning Basic' 카테고리의 다른 글

Base (0)	2018.03.05
cost function and Gradient update rule (0)	2017.10.21

공유하기 링크

페이스북
카카오스토리
트위터

'Lectures/Machine Learning Basic' Related Articles

more

Comments

티스토리툴바