강화학습은 변화하는 요구 사항에 근거해 이상적 행동을 자동으로 결정할 수 있는 스마트한 모델과 에이전트를 만드는 인기 있고 유망한 인공지능 분야다. 이 책은 에이전트를 개발할 때 강화학습 알고리듬을 마스터하고 구현하는 것을 이해할 수 있도록 도와준다.
강화학습 환경에서 작업해야 하는 도구, 라이브러리, 셋업 소개를 시작으로 강화학습의 빌딩 블록을 다루고 Q-러닝과 SARSA 알고리듬을 응용하는 (등의) 가치 기반 메소드를 상세하게 알아본다. 복잡한 문제를 해결하기 위해 Q-러닝과 신경망의 조합을 이용하는 방법을 소개한다. DDPG와 TD3 같은 결정적 알고리듬을 학습하기 전에 성능과 안정성을 개선하기 위한 폴리시 그래디언트 메소드, TRPO, PPO를 학습할 것이다. 또한 이미테이션 학습 기술이 작동하는 방법과 DAgger가 에이전트를 훈련시키는 방법을 다룬다. 진화 전략과 블랙박스 최적화 기술을 다룬 다음, UCB와 UCB1 같은 탐색 접근법을 학습하고 ESBAS라는 메타 알고리듬을 개발해본다.
이 책을 마칠 시점에는 현실 문제를 해결하기 위해 강화학습 알고리듬을 활용할 수 있는 역량을 갖추고 강화학습 연구 모임에 참여할 수 있을 것이다.