reinforcement learning 3

[DL] Reinforcement Learning 3편 (Policy & Value Iteration, SARSA, Q-Learning, Deep Q-Network)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다이 머신러닝 딥러닝 수업의 마지막 강의이자강화학습에서의 마지막 강의이다 이전 시간에 했던 내용에 이어서 다음 부분이다 지난 시간에 배운 내용들이 강화학습의 기본 개념들이었다MDP가 무엇인지 transition model이 무엇인지value function이 어떤 것인지에 대한 기본적인 내용들이었다잠깐만 recap해보자우리가 지난시간에 배운 것은 Bellman Optimally EquationOpitmal Policy, value function을 어떻게 찾는지 등이었다 그렇다면 의사결정을 수행하는 agent의 목적은 무엇일까?결국 optimal polic..

[DL] Reinforcement Learning 2편 (State와 Policy와 Reward, Dynamics of Markov, Bellman Equation)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다 지난 시간에 이어서 오늘도 강화학습에 대해서 공부한다지난 시간의 강화학습은 아주 특별한 case였던 multi-armed bandit을 다뤘는데오늘은 일반적인 강화학습에 대해서 공부한다 우리가 흔히 말해 인공지능이라고 하는 것들의 대표적인 사례이다chatGPT가 도래하기 전에 우리에게는 알파고가 있었다그리고 알파고가 인공지능의 mile stone이라고 하기 전에 우리에겐 강화학습이 있었다2016년에 나온 알파고에 비해 조금 더 최근에 나온 강화학습의 사례도 있다위 사진에서 오른쪽인데 또 하나는 2022년에 matrix를 계산하는 좀 더 빠른 방식을강화학습 알..

[DL] Reinforcement Learning 1편 (Multi-armed Bandits)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다 이번 시간과 다음 시간에는 강화학습에 대해서 배운데 크게 머신러닝 기법에 대해서지도학습과 비지도학습 그리고 강화학습이라는 범주로 볼 수 있다우리가 지금까지 지도학습과 비지도학습에 대해서는 배웠기에남은 시간 동안에는 강화학습에 대해서 배운다 본격적인 강화학습에 대해서 배우기 전에 오늘 배울 것은가장 기본적인 강화학습이라고 한다강화학습 중에서도 가장 심플한 문제이다 그러나 심플한 케이스라고 해서 쉽다는 건 아닌데아무튼 오늘 내용은 보다 조금 직관적으로 이해하려고하면 좋다고한다 우리가 오늘 배워 볼 내용은 Multi-armed Bandits 문제이다초기의 연구자..