3-2 학기/Artificial Intelligence6 [인공지능] Ch17 MDPs II 지난 포스트에서 공부한 MDP에 이어 작성한다. The Bellman EquationsOptimal한 policy를 찾는 방법은 위와 같다고 한다.- Step1: 올바른 첫 번째 행동하기- Step2: 최적화 상태 유지하기 그럼 어떻게 being optimal할 수 있는지 알아보자.상태 가치 함수 V(s)상태 s에서 시작하여 최적의 정책을 따를 때 얻을 수 있는 기대 보상의 총합이다.T(s, a, s')은 상태 s에서 행동 a를 통해 s'으로 전이될 확률을 의미한다.R(s, a, s')은 상태 전이에 따른 보상이다.V(s')은 다음 상태의 가치이다.Q 값 함수 Q(s, a)상태 s에서 행동 a를 취했을 때 이후 최적의 정책을 따를 경우 얻을 수 있는 기대 보상의 총합이다.Policy EvaluationP.. 2024. 12. 4. [인공지능] Ch16 MDPs MDPMDP에 대해 알알보기 위해 우선 미로 탐색 인공지능의 예시를 먼저 살펴보자.왼쪽 그림은 우리가 지금까지 봐온 Deterministic하게 움직이고 있는 것이다.agent가 정해준 방향으로만 움직이고 있는 것을 확인할 수 있다. 그러나 현실에선 다른 방향으로도 agent가 움직이는 것이 자연스럽다.이렇게 확률적으로 움직이는 걸 오른쪽 그림에서 나오는 Stochastic이라고 한다.Stochastic은 "확률적" 또는 "비결정적"이라는 의미이다. 미로에서 길을 지날 때 여태까지 지나온 길에 대해서는 생각하지 않아도 된다. 이렇게 오로지 현재의 상태에만 기반해서 행동하는 것을 Markov Transition Model이라고 한다. MDP는 다음과 같이 구성되어 있다.상태(State, S): 환경의 가능.. 2024. 11. 27. [인공지능] Ch14 Adversarial Search Adcersarial Search적대적 탐색이란, 두 개 이상의 agent가 서로 적대적인 관계를 가졌을 때의 탐색 방법을 의미한다.여러 agent가 서로의 이득을 취하기 위해 움직이는 상황을 '게임'이라고 하며 해당 강의에서는 여러 게임들을 소개한다. Deterministric GamesDeterministric 게임을 formalize 하는 방법은 다양한데 그 중 아래와 같은 방법이 있다.하나씩 설명해보자면, States (𝑆)는 게임의 모든 가능한 상태를 나타낸다.게임은 특정 상태 𝑠0에서 시작한다. 이후의 상태는 플레이어의 행동과 상태 전이 함수에 의해 결정된다. Players (𝑃)는 플레이어 집합을 나타낸다.일반적으로 플레이어는 턴을 번갈아가며 진행하며, 보통 𝑃 = {1, 2} 또는 .. 2024. 11. 27. [인공지능] Ch13 Informed Search Search Heuristics휴리스틱이란, 목표에 얼마나 가까운 상태인지 추정하는 함수를 의미한다.ex) 맨해튼 거리, 경로를 위한 유클리드 거리팩맨을 예시로 들자면,팩맨의 위치에서 목표까지의 거리는 위의 빨간색 선과 달리 벽을 뚫지 않고 구불하게 이동해야 할 것이다. 그렇다면 추정값은 유클리드 거리를 이용해서 구할 수 있다. 그게 바로 빨간색 선이다.목표까지의 유클리드 커리를 반환하는 함수가 휴리스틱인 것이다. Greedy Searchgreedy search는 목표와 가까워 보이는 노드부터 확장해 나가는 방법이다. Optimal하냐고 물어본다면 그렇지는 않다. 당장 현재 노드로부터 가까워 보이는 노드들을 선택해 나가기 때문에 최적해가 될 수 없는 건 어찌보면 당연하다. 여기서 휴리스틱은 각 상태에 대.. 2024. 11. 27. [인공지능] Ch12 Search Agent인공지능에서 agent란 독자적으로 행동하는 하나하나의 주체를 의미한다.decision-maker == AI model어떤 조치를 취할 것인지 결정하는 구성 요소1) Reflex Agentsagent의 종류의 첫 번째로 Reflex Agent가 있다.이 agent는 현재 인식(및 기억력)에 따라 작업을 선택한다.위 그림을 보자. 로봇(agent)은 사과만을 보고 사과에 닿기 위해 점프를 하지만 그 이후에 떨어질 것은 예측하지 못하고 있다.즉, 향후 행동의 결과를 고려하지 않는다. 2) Planning Agents두 번째 종류로는 Planning Agents가 있다.이 agent는 "만약에"를 물으며 행동의 (가설화된)결과에 따라 결정한다.위 로봇은 처음에 보았던 로봇과는 반대로 도구를 이용하고 .. 2024. 11. 27. [인공지능] Ch2 Linear Classification Perceptron퍼셉트론 학습 규칙, PLA (= percpetron learning rule)출력이 정확하면, 즉 y = hw(x)이면, 가중치들은 변하지 않는다.y가 1인데 hw(x)는 0인 경우, 해당 xi가 양수이면 wi를 증가하고 음수이면 감소한다.hw(x)가 1을 출력하려면 w * x를 더 크게 만들어야 한다는 뜻y가 0인데 hw(x)는 1인 경우에는, 해당 입력 xi가 양수이면 wi를 감소하고, 음수이면 증가한다. hw(x)가 0을 출력하려면 w * x를 더 작게 만들어야 한다는 뜻 위의 수식을 통해 더 알아보자면, wi는 각 특성 xi에 곱해지는 가중치이다.threshold는 신용 승인이나 거부 같은 결정을 내리기 위한 기준값이다.sign 함수는 결과 값이 0보다 크면 +1을, 0보다 작.. 2024. 10. 10. 이전 1 다음