Policy Evaluation과 Contraction Principle
(9월 3일에 다시 작성하기 시작) 쓰다보니 또 스크롤이 길어지고 있다. 늘 그렇듯 원래 정했던 목표보다 더 근본적인 것부터 써가고 있다. 이렇게 써가는게 맞긴 한데, 글이 길어지니 나눠버렸다. 이전 글까지는 finite MDP와 policy, value function, Bell...
(9월 3일에 다시 작성하기 시작) 쓰다보니 또 스크롤이 길어지고 있다. 늘 그렇듯 원래 정했던 목표보다 더 근본적인 것부터 써가고 있다. 이렇게 써가는게 맞긴 한데, 글이 길어지니 나눠버렸다. 이전 글까지는 finite MDP와 policy, value function, Bell...
얼떨결에 강화학습 업무를 맡았을때는 매우 당황스러웠고 지금도 막막하지만, 그래도 하나 얻은 것이 있다. 대학원 시절에는 잘 읽히지 않던 Sutton의 책이 지금은 읽힌다는 것이었다. 입사 첫주에는 Sutton의 책을 열심히 읽어봤다. 결국은 DPG와 DDPG를 구현해야 하는 어려운...
2025년 전반기는 나름대로 유익하고 열심히 살았지만 경력상으로는 빈 구간이 되었다. 다시 경력을 채우기 직전, 통장 잔고가 줄어드는 것을 피하기 위해 수학을 가르치는 능력을 활용해보았다. 살면서 학원에서 일한 적은 이번이 처음이었는데 이 일은 매우 재미있었다.