(Sutton, 4.2절) Policy Improvement

2025-10-13 최대 1 분 소요

더 시간이 지나기 전에 Dynamic programming 포스팅을 끝내고 싶은 마음이 생겼다. 다른 주제들도 공부하여 포스팅을 남기고 싶은데 DP를 끝내지 않고 다른 것을 쓰기는 싫기 때문이다. 그러니까 일종의 의무감에서 이 글을 쓰고 있다. 당장 이전부터 PCA와 PLS에 대해 공부하고 싶었고 얼마 전에는 game theory나 control theory에 손을 댈까도 생각했었는데, 오늘은 MPC와 LQR을 배워야 할 필요가 생긴 것이다. 그러니 DP는 빠르게 공부하여 치워버리자.

그리고 사실 글을 쓸 준비가 되어있다고 생각한다. 이전 글을 쓰고 나서 간간이 4.2절을 보았고 어느 정도 이해는 했던 터였다.

(Sutton, 4.2절) Policy Improvement

4.2 Policy Improvement

댓글남기기