본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다이 머신러닝 딥러닝 수업의 마지막 강의이자강화학습에서의 마지막 강의이다 이전 시간에 했던 내용에 이어서 다음 부분이다 지난 시간에 배운 내용들이 강화학습의 기본 개념들이었다MDP가 무엇인지 transition model이 무엇인지value function이 어떤 것인지에 대한 기본적인 내용들이었다잠깐만 recap해보자우리가 지난시간에 배운 것은 Bellman Optimally EquationOpitmal Policy, value function을 어떻게 찾는지 등이었다 그렇다면 의사결정을 수행하는 agent의 목적은 무엇일까?결국 optimal polic..