최근 포스트

(Sutton, 4.2-6절) Policy Improvement 등

4 분 소요

더 시간이 지나기 전에 dynamic programming 포스팅을 끝내고 싶은 마음이 생겼다. 다른 주제들도 공부하여 포스팅을 남기고 싶은데 DP를 끝내지 않고 다른 것을 쓰기는 싫기 때문이다. 그러니까 일종의 의무감에서 이 글을 쓰고 있다. 당장 이전부터 PCA와 PLS에 대해...

(Sutton, 4.1절) Policy Evaluation

6 분 소요

이전 포스트에 이어 Sutton의 책을 읽어가보자. 늘 그렇듯 책에 생략된 내용에 대해서는 자료를 찾거나 직접 계산 또는 증명해서 채워나갈 것이다. dynamic programming은, 이 책에서는 가장 기본적인 강화학습 알고리즘으로 소개된다. 환경모델이 완전히 주어진 상태에서 ...

앙드레 지드 - 「좁은 문」

7 분 소요

몇 년째 참여하고 있는 어떤 독서모임은, 3개월간 모임에 참석하거나 주최하지 않으면 독후감을 써내야 한다. 최근 이직과 회사 일로 매우매우 바빴기 때문에 주최는커녕 참석도 할 새가 없었다. 그래서 어제 (9/13) 후다닥 「좁은 문」에 대한 독후감을 써서 제출했는데, 쓴 김에 블로...

(Sutton, 3장) Finite MDP

12 분 소요

얼떨결에 강화학습 업무를 맡았을때는 매우 당황스러웠고 지금도 막막하지만, 그래도 하나 얻은 것이 있다. 대학원 시절에는 잘 읽히지 않던 Sutton의 책이 지금은 읽힌다는 것이었다. 입사 첫주에는 Sutton의 책을 열심히 읽어봤다. 결국은 DPG와 DDPG를 구현해야 하는 어려운...

가우스 소거법

12 분 소요

2025년 전반기는 나름대로 유익하고 열심히 살았지만 경력상으로는 빈 구간이 되었다. 다시 경력을 채우기 직전, 통장 잔고가 줄어드는 것을 피하기 위해 수학을 가르치는 능력을 활용해보았다. 살면서 학원에서 일한 적은 이번이 처음이었는데 이 일은 매우 재미있었다.