최근 포스트

Policy Evaluation과 Contraction Principle

3 분 소요

(9월 3일에 다시 작성하기 시작) 쓰다보니 또 스크롤이 길어지고 있다. 늘 그렇듯 원래 정했던 목표보다 더 근본적인 것부터 써가고 있다. 이렇게 써가는게 맞긴 한데, 글이 길어지니 나눠버렸다. 이전 글까지는 finite MDP와 policy, value function, Bell...

Finite MDP

7 분 소요

얼떨결에 강화학습 업무를 맡았을때는 매우 당황스러웠고 지금도 막막하지만, 그래도 하나 얻은 것이 있다. 대학원 시절에는 잘 읽히지 않던 Sutton의 책이 지금은 읽힌다는 것이었다. 입사 첫주에는 Sutton의 책을 열심히 읽어봤다. 결국은 DPG와 DDPG를 구현해야 하는 어려운...

가우스 소거법

12 분 소요

2025년 전반기는 나름대로 유익하고 열심히 살았지만 경력상으로는 빈 구간이 되었다. 다시 경력을 채우기 직전, 통장 잔고가 줄어드는 것을 피하기 위해 수학을 가르치는 능력을 활용해보았다. 살면서 학원에서 일한 적은 이번이 처음이었는데 이 일은 매우 재미있었다.