(Sutton, 4.4, 4.6절) Value Iteration, GPI
DP(dynamic programming)의 마지막 글이다.
DP(dynamic programming)의 마지막 글이다.
더 시간이 지나기 전에 dynamic programming 포스팅을 끝내고 싶은 마음이 생겼다.
이전 포스트에 이어 Sutton의 책을 읽어가보자.
몇 년째 참여하고 있는 어떤 독서모임은, 3개월간 모임에 참석하거나 주최하지 않으면 독후감을 써내야 한다. 최근 이직과 회사 일로 매우매우 바빴기 때문에 주최는커녕 참석도 할 새가 없었다. 그래서 어제 (9/13) 후다닥 「좁은 문」에 대한 독후감을 써서 제출했는데, 쓴 김에 블로...
얼떨결에 강화학습 업무를 맡았을때는 매우 당황스러웠고 지금도 막막하지만, 그래도 하나 얻은 것이 있다. 대학원 시절에는 잘 읽히지 않던 Sutton의 책이 지금은 읽힌다는 것이었다. 입사 첫주에는 Sutton의 책을 열심히 읽어봤다. 결국은 DPG와 DDPG를 구현해야 하는 어려운...