[인공지능] Ch17 MDPs II

지난 포스트에서 공부한 MDP에 이어 작성한다.

The Bellman Equations

Optimal한 policy를 찾는 방법은 위와 같다고 한다.

- Step1: 올바른 첫 번째 행동하기

- Step2: 최적화 상태 유지하기

그럼 어떻게 being optimal할 수 있는지 알아보자.

상태 가치 함수 V(s)
- 상태 s에서 시작하여 최적의 정책을 따를 때 얻을 수 있는 기대 보상의 총합이다.
- T(s, a, s')은 상태 s에서 행동 a를 통해 s'으로 전이될 확률을 의미한다.
- R(s, a, s')은 상태 전이에 따른 보상이다.
- V(s')은 다음 상태의 가치이다.
Q 값 함수 Q(s, a)
- 상태 s에서 행동 a를 취했을 때 이후 최적의 정책을 따를 경우 얻을 수 있는 기대 보상의 총합이다.

Policy Evaluation

Policy Evaluation은 주어진 정책 π에 대해 각 상태의 가치 함수 V^π(s)를 계산하는 과정이다.

이 과정은 현재 정책이 제공하는 행동을 따를 때, 상태 s에서 시작하여 얻을 수 있는 기대 보상의 총합을 계산하는 것을 목표로 한다.

위 수식도 앞서 알아본 수식과 크게 다르지 않다.

다만 주어진 정책 π를 따른다는 점에서 차이점이 있다.

Policy가 주어졌다는 의미는 한 방향만을 고려한다는 말로, max를 취할 필요가 없는 것이다.

예시를 보자.

첫 번째 경우는 항상 오른쪽으로 이동하는 정책을 따르는 예시고, 두 번째 경우는 항상 위쪽으로 향하는 정책을 따르는 예시이다.

계산을 해보면 오른쪽으로만 이동하면 목표상태(100)에 도달할 확률이 낮아져 대부분의 상태에서 가치가 낮다.

반면, 위쪽으로만 이동하면 목표 상태에 도달할 가능성이 높은 경로를 따르게 되므로 가치가 높게 평가된다.

[인공지능] Ch16 MDPs (1)	2024.11.27
[인공지능] Ch14 Adversarial Search (1)	2024.11.27
[인공지능] Ch13 Informed Search (0)	2024.11.27
[인공지능] Ch12 Search (1)	2024.11.27
[인공지능] Ch2 Linear Classification (1)	2024.10.10

BONA