전체 글 160

[ML] Tree-based Methods 2편 (Bagging, Random Forests, Boosting)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다 지난 시간에 이어서 오늘은 tree-based method bagging, random forests, boosting에 대해서 배워본다 우선 bagging에 대해서 살펴보자 지난 시간에 tree-based method들의 장단점에 대해서 배웠었는데단점부터 살펴보자면 우선 decision tree는prediction accuracy가 그렇게 썩 좋지 않았다bagging은 이러한 낮은 성능을 극복하기 위한 방법이다 bagging을 지금은 decision tree에 적용할 수 있는 방법으로 배우고있지만bagging은 굉장히 general한 method이다 bagging..

[ML] Tree-based Methods 1편 (Decision Trees)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다 이번 시간과 다음 시간에는tree-based methods에 대해서 배운다고한다오늘은 가장 기본이 되는 내용인 deicision tree에 대해 배운다 decision tree라는 이름만 듣고 classification이라고 착각하는 경우가 있는데이 decision tree는 regression과 classification 2개 다 사용할 수 있다 decision tree란 x predictor space가 있는데이걸 어떻게 하면 partition을 나눠서partition 안에 있는 y값들이 어떤 prediction을 갖는지를 찾는 과정이다 한 마디로 우리가 어떻..

[ML] Subset Selection 2편 (Shrinkage Methods: Ridge, Lasso)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다이번 시간은 지난 시간에 이은 model selection에 대한 내용이다지난시간의 subset selection은 내용 자체가 중요한게 아니고이번 시간에 배울 내용을 빌드업하기 위한 내용이다 이번 시간은 model selection 중에서도shrinkage method에 관한 내용이고Ridge와 Lasso라는 개념에 대해 배운다 지난 시간에는 여러 개의 subset을 만들어서best subset을 고르는 방식이었는데모든 부분 집합을 다 model fit을 시킨 다음에RSS가 가장 낮은 것을 선택하는 방법이었다 그 다음 stepwise 방식에 대해서도 배웠는데이도 결국..

[ML/과제 1] Linear Regression, Logistic Regression scikit-learn으로 구현하고 결과 분석하기

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다이번에는 추석 연휴 맞이 나온 과제를수행한 내용을 정리해서 올려보려고 한다 이번 과제는 지금까지 배웠던 내용 중에서linear regression과 logistic regression을제공하는 데이터를 활용해서 scikit-learn으로 구현해보고그 결과를 지금까지 배운 개념들로 분석해보는 과제이다 Question 1우선 첫 번째 문제부터 한 번 살펴보자 과제에서 이미 Carseats.csv 라는 데이터셋을 제공하고있었다이 데이터셋을 바탕으로 linear regression을 지시에 따라 구현해보자 우선 Carseats.csv는 이렇게 생겼다 이렇게 총 400개의 r..

[ML] Subset Selection 1편 (Best Subset Selection, Stepwise Selection)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다 이번 시간과 다음 시간에 배울 내용은subset selection에 대한 내용이다 지금까지는 어떻게 model fit하는지를 배웠다면이번 시간은 어떻게하면 이 모델에 대해서 subset selection을 할 수 있을까에 대한 내용이다 linear regression을 한 번 생각해보자feature는 여러개이고 parameters는 p+1개이다 linear regression 자체가 상당히 strong한 가정이라고 생각할 수 있는데linear model을 사용하는데에 있어서데이터가 반드시 linear해야만 linear model을 사용할 수 있는 것은 아니다 아예 ..

[ML] Resampling Methods 2편 (Bootstrap)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다이번 시간에는 bootstrap에 관한 내용을 살펴본다 bootstrap은 우리 지난 시간에 배웠던cross validation과 비슷한 맥락이다 이 bootstrap은 하나의 dataset을 이용해서여러 복제본 dataset을 만드는 방법인데아주 유용해서 자주 쓰이는 방법이라고 한다 예를 들어서 데이터셋 하나로 어떤 모델의 파라미터를 구했다고하자이 데이터셋 한개만으로는 파라미터의 uncertainty를 계산하기가 힘들다우리가 앞에서 linear regression과 logistic regression은 가능했지만원래는 쉽지 않다고 한다따라서 bootstrap이 이런..

[GNN] Knowledge Graphs (KG Completion with Embeddings)

본 게시글은 Stanford 대학교 Jure Leskovec 교수님의Stanford CS224W: Machine Learning with Graphs(2021) 강의를 듣고학습을 목적으로 재구성한 글입니다스스로 정리한 내용이라 오류가 있을 수 있습니다 https://web.stanford.edu/class/cs224w/ CS224W | HomeContent What is this course about? Complex data can be represented as a graph of relationships between objects. Such networks are a fundamental tool for modeling social, technological, and biological syste..

[ML] Resampling Methods 1편 (Cross-Validation)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다이번 시간과 다음시간까지는 resampling methods에 대해서 배우는데그 중에서 이번 시간은 cross validation에 대해서 배운다 다음시간은 boostrap에 대해서 배운다고 한다 위에서 이번에 배우는게 Resampling methods라고 했는데그럼 이게 정확하게 어떤 개념이냐?우리가 모델을 학습시키려고 하면 training data가 필요한데가지고 있는 training data를 최대한 잘 활용해서training data에서 얻을 수 없는 것을 얻어보자는 것에 대한 내용이다 우리가 지금 갖고있는게 training data밖에 없다고 해보자trainin..

[GNN] Heterogeneous Graphs (RGCN)

본 게시글은 Stanford 대학교 Jure Leskovec 교수님의Stanford CS224W: Machine Learning with Graphs(2021) 강의를 듣고학습을 목적으로 재구성한 글입니다스스로 정리한 내용이라 오류가 있을 수 있습니다 https://web.stanford.edu/class/cs224w/ CS224W | HomeContent What is this course about? Complex data can be represented as a graph of relationships between objects. Such networks are a fundamental tool for modeling social, technological, and biological syste..

[ML] Classification 2편 (LDA, QDA, Naive Bayes)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다 이번 시간은 Classification 2편이다이번시간의 내용은 확률 계산이 많아서느끼기에 그렇게 쉽지는 않았다 그래도 천천히 계산과정까지 정리해보며공부해볼생각이다 그럼 시작-! 오늘 배울 친구들은 Discriminant Analysis(판별분석)라고 불리는데Logistic Regression에 비해서 상대적으로 덜 사용된다고한다하지만 여기서 배운 테크닉들이 유용하기 때문에오늘 내용의 fundamental한 원리들을 이해하는 것이 중요하다 지난 시간에 배운 Logistic Regression은sigmoid 함수를 fit 시키는 것이었는데sigmoid 함수에 지수 형태..