전체 글 146

[ML] Subset Selection 1편 (Best Subset Selection, Stepwise Selection)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다 이번 시간과 다음 시간에 배울 내용은subset selection에 대한 내용이다 지금까지는 어떻게 model fit하는지를 배웠다면이번 시간은 어떻게하면 이 모델에 대해서 subset selection을 할 수 있을까에 대한 내용이다 linear regression을 한 번 생각해보자feature는 여러개이고 parameters는 p+1개이다 linear regression 자체가 상당히 strong한 가정이라고 생각할 수 있는데linear model을 사용하는데에 있어서데이터가 반드시 linear해야만 linear model을 사용할 수 있는 것은 아니다 아예 ..

[ML] Resampling Methods 2편 (Bootstrap)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다이번 시간에는 bootstrap에 관한 내용을 살펴본다 bootstrap은 우리 지난 시간에 배웠던cross validation과 비슷한 맥락이다 이 bootstrap은 하나의 dataset을 이용해서여러 복제본 dataset을 만드는 방법인데아주 유용해서 자주 쓰이는 방법이라고 한다 예를 들어서 데이터셋 하나로 어떤 모델의 파라미터를 구했다고하자이 데이터셋 한개만으로는 파라미터의 uncertainty를 계산하기가 힘들다우리가 앞에서 linear regression과 logistic regression은 가능했지만원래는 쉽지 않다고 한다따라서 bootstrap이 이런..

[GNN] Knowledge Graphs (KG Completion with Embeddings)

본 게시글은 Stanford 대학교 Jure Leskovec 교수님의Stanford CS224W: Machine Learning with Graphs(2021) 강의를 듣고학습을 목적으로 재구성한 글입니다스스로 정리한 내용이라 오류가 있을 수 있습니다 https://web.stanford.edu/class/cs224w/ CS224W | HomeContent What is this course about? Complex data can be represented as a graph of relationships between objects. Such networks are a fundamental tool for modeling social, technological, and biological syste..

[ML] Resampling Methods 1편 (Cross-Validation)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다이번 시간과 다음시간까지는 resampling methods에 대해서 배우는데그 중에서 이번 시간은 cross validation에 대해서 배운다 다음시간은 boostrap에 대해서 배운다고 한다 위에서 이번에 배우는게 Resampling methods라고 했는데그럼 이게 정확하게 어떤 개념이냐?우리가 모델을 학습시키려고 하면 training data가 필요한데가지고 있는 training data를 최대한 잘 활용해서training data에서 얻을 수 없는 것을 얻어보자는 것에 대한 내용이다 우리가 지금 갖고있는게 training data밖에 없다고 해보자trainin..

[GNN] Heterogeneous Graphs (RGCN)

본 게시글은 Stanford 대학교 Jure Leskovec 교수님의Stanford CS224W: Machine Learning with Graphs(2021) 강의를 듣고학습을 목적으로 재구성한 글입니다스스로 정리한 내용이라 오류가 있을 수 있습니다 https://web.stanford.edu/class/cs224w/ CS224W | HomeContent What is this course about? Complex data can be represented as a graph of relationships between objects. Such networks are a fundamental tool for modeling social, technological, and biological syste..

[ML] Classification 2편 (LDA, QDA, Naive Bayes)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다 이번 시간은 Classification 2편이다이번시간의 내용은 확률 계산이 많아서느끼기에 그렇게 쉽지는 않았다 그래도 천천히 계산과정까지 정리해보며공부해볼생각이다 그럼 시작-! 오늘 배울 친구들은 Discriminant Analysis(판별분석)라고 불리는데Logistic Regression에 비해서 상대적으로 덜 사용된다고한다하지만 여기서 배운 테크닉들이 유용하기 때문에오늘 내용의 fundamental한 원리들을 이해하는 것이 중요하다 지난 시간에 배운 Logistic Regression은sigmoid 함수를 fit 시키는 것이었는데sigmoid 함수에 지수 형태..

[ML] Classification 1편 (Logistic Regression)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다지난시간까지 Linear Regression에 대해서 배웠다이번에는 Logistic Regression에 대해서 배워본다 Logistic Regression은 우리가 흔히 말하는Classification를 해결하는 방법이다 Classification 문제란 우리가 모델을 통해서 예측해야하는 output즉, response variable이 category인 것을 말한다위 ppt에서 예시를 살펴보면눈의 색상이 brown, blue, green 3개 중에 1개를 맞춰야한다거나email을 보고 스팸인지 스팸이 아닌지 맞춰야하는 경우가 있다 즉, classification이..

[ML] Linear Regression 2편 (F-statistics, categorical predictors, interactions)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다 지난 시간에 이어서 linear regression에 대해서더 나아가서 배워보자 지난 시간에는 single linear regression을 넘어서multiple linear regression까지 학습했다 multiple linear regression을 빠르게 계산하는 방법에 대해서지난 시간에 배운 내용이다이렇게 matrix를 이용해서 계산하면 훨씬 더 수월하게계산을 수행할 수 있다 잔차 제곱의 합인 RSS는위와 같이 나타낼 수 있다 그리고 이를 미분해서 0이 되는 B^를 찾으면 이런 값이 나오게 된다 이게 multiple linear regression을 공부할..

[GNN] How Expressive are Graph Neural Network? (GIN model)

본 게시글은 Stanford 대학교 Jure Leskovec 교수님의Stanford CS224W: Machine Learning with Graphs(2021) 강의를 듣고학습을 목적으로 재구성한 글입니다스스로 정리한 내용이라 오류가 있을 수 있습니다 https://web.stanford.edu/class/cs224w/ CS224W | HomeContent What is this course about? Complex data can be represented as a graph of relationships between objects. Such networks are a fundamental tool for modeling social, technological, and biological syste..

[ML] Linear Regression 1편 (single & multiple linear regression)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다본격적으로 머신러닝 내용을 시작한다그 첫번째 주제는 바로 linear regression 교수님의 말씀 한마디 한마디 전부다최대한 설명에 담아보려고 애썼다 그렇다면 .. 시작-!linear regression은 지도학습과 비지도학습을 얘기하는데 있어서가장 기초가 되는 개념이다지도학습에서는 x와 y가 있고그 x는 feature, y는 response variable이라고 부르는데결국 x와 y가 어떠한 correlation이 있다면 거기에서의 선형관계를 찾아내는 것이다 여러 데이터들 속에서 선형관계를 찾아내는 것이 linear regression이라고 했는데그렇다면 .. 과연..