人工智能-马尔可夫决策网络与强化学习

Posted by Shenpotato on October 22, 2019

此文章是对CSIT6000F Artificial Intelligence的记录

包含:马尔可夫决策模型的思想,强化学习的思想和两者的比较

一、马尔可夫决策

1、前提概要

(1)搜索问题

一个搜索问题将包含有:

  • 一系列的状态 States
  • 初始状态 Starting State
  • 状态转换的行动 Actions
  • 终止状态 Goal
  • 损失函数 Cost Function

(2)马尔科夫决策

马尔科夫决策包含:

  • 一系列的状态 States
  • 初始状态 Starting State

马尔科夫决策本质在于:当前状态决定未来

二、强化学习