Soohyun’s Machine-learning

Kernel Idea 본문

Lectures/Machine Learning Basic

Kernel Idea

Alex_Rose 2017. 11. 10. 20:10

202p





204p





여기에서의 positive definite 는 positive definite matrix 와 비슷하다고 보면 된다. (같다인지 비슷하다인지는 더 찾아봐야 함)


Positive definite matrix : http://mskyt.tistory.com/79



positive definite 와 positive semi definite 간의 차이? : 

https://m.blog.naver.com/PostView.nhn?blogId=talesoff&logNo=130179795677&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F



우선 definite matrix는 hermit matrix에 속한다는데, hermit matrix 는 대칭 행렬을 복소수 환경에 맞도록 확장한걸로 생각할 수 있다는데.. 복소수를 쓰지 않는 분야에서는 symmetric matrix 라고 보면 된다. 



 1. 모든 eigenvalue가 >=0 인 경우  positive - semi definite matrix

 2. 모든 eigenvalue가 >0 인 경우  positive definite matrix

 3. 모든 eigenvalue가 <=0 인 경우  negative - semi definite matrix

 4. 모든 eigenvalue가 <0 인 경우  negative definite matrix

 5. eigenvalue가 양수, 음수 섞인 경우 indefinite matrix



eigenvalue (한국어) : https://ko.wikipedia.org/wiki/%EA%B3%A0%EC%9C%B3%EA%B0%92

eigenvalue (영어) : https://en.wikipedia.org/wiki/Eigenvalues_and_eigenvectors







205p












positive definite는 기본적으로 matrix에 적용시키는 것이다. ML같은 경우 특히 optimization에서 많이 나온다. 


위의 정의 자체는 어떤 벡터를 가져와도 스칼라 값을 적용시켜서 곱하면 이걸 zero나 negative로 만드는 것이 존재하지 않으면 positive definite 하다고 한다. 이걸 간단하게 알아내는 방법은 A의 eigenvalue를 찾아보고 negative가 없으면 positive definite 하다고 볼 수 있다. 







diagonal element를 갖는 matrix ... 




208p




209p




요 kernel function을 inner product로 하는 파이가 존재한다 = 그게 mercer's theorem 이다. 

(파이의 inner product가 k랑 항상 똑같은 게 존재한다)


k가 positive definite 하면 파이가 존재한다 가 머서의 띠오렘이다. 


문제는 k가 P.D. 하면 요거에 해당되는 파이가 존재한다는 전혀 trivial 하지 않다.








210p


저기 위에 있는 공식이 다 inequality constraint 다. 


solution은 boundary에 있거나, 아니거나 (이게 KKT condition의 마지막 조건이다)











211p




kenelization을 한다!그러면 representer theorem 부터 시작을 한다 225p







아래부터 Fisher discriminant analysis




213p

215p를 먼저 보고 와라.


Nc는 c class인 data의 수. emprical covariance를 각각의 클래스의 covariance matrix. ....



위의 식을 optimization 한다고 하면.. 216p로.. 







214p




215p








boundary 설정을 어디로 하는게 더 좋은가?


w1에는 class1 과 class2가 있다. overlap이 저 정도로 된다.


w2에서는 class1과 class2의 overlap이 엄청 크다. 



overlap 기준을 놓고 봤을때 그게 작게 되는 것을 찾고 싶다. 근데 그걸 어떻게 formulation하느냐


mean의 variance. 각 클래스의 mean의 variance. 평균의 variance가 커질수록 좋겠다 - 라고 하고, 각 class 내부의 variance들의 평균은 작았으면 좋겠다 - 라고 한다면.. 


class 간의 비율을 가장 크게 만드는 (max) 걸 찾고 싶다. 


이거의 식이.. 213p의 식임. 









216p


먼저 이걸 손으로 풀어보고, 그럼 analysis 되는거고, 아니면 컴퓨터 한테 시키면 된다. 








217p



218p




219p




220p





















221p
















222p



















223p

















224p













225p

















226p


















227p










228p

















230p





ridge regression = linear regression 이다.








231p


ridge regression을 넣은 이유? 이게 없으면 안 풀리니까 넣은거다. 

이게 frequentist의 view 이다. 





232p








아래는 bayesian의 view이다. 


233p








234p


아래의 W ML << 요 공식이 closed form solution이다. 






235p

MAP = Maximum aposterior ...


베이지안 뷰는 prior를 집어넣어서 W MAP를 구한 것. 






236p










237p




기계학습 문제는 전부 다 optimization 문제다. 여기 슬라이드의 내용이 내가 전하고 싶은 내용이다. 


묻지도 따지지도 않고 미분부터 해라!!




'Lectures > Machine Learning Basic' 카테고리의 다른 글

Base  (0) 2018.03.05
cost function and Gradient update rule  (0) 2017.10.21
Comments