Skip to content

Commit

Permalink
update errata.md
Browse files Browse the repository at this point in the history
  • Loading branch information
qiwang067 committed Jul 25, 2023
1 parent e164cf2 commit cc61269
Showing 1 changed file with 7 additions and 2 deletions.
9 changes: 7 additions & 2 deletions docs/errata.md
Original file line number Diff line number Diff line change
Expand Up @@ -21,13 +21,18 @@ pip install pygame
* 28页,第二个代码框第1行和倒数第1行:BespokeAgent → SimpleAgent
* 28页,倒数第一段改为:SimpleAgent 类的 decide()方法用于决策,learn() 方法用于学习,该智能体不是强化学习智能体,不能学习,只能根据给定的数学表达式进行决策。
* 29页,第一个代码框第1行:play_montecarlo → play
* 29页,第二段第1行:play_montecarlo → play
* 29页,第一个代码框第2行:初始化 → 初始值
* 29页,第一个代码框第6行:显示图形界面,图形界面可以用 env.close() 语句关闭 → 显示图形界面
* 29页,第二段改为:上面代码中的 play 函数可以让智能体和环境交互一个回合,该函数有 4 个参数。env 是环境类。agent 是智能体类。render 是 bool 型变量,其用于判断是否需要图形化显示。如果 render 为 True,则在交互过程中会调用 env.render() 以显示图形界面,通过调用 env.close() 可关闭图形界面。train 是 bool 型变量,其用于判断是否训练智能体,在训练过程中设置为 True,让智能体学习;在测试过程中设置为 False,让智能体保持不变。该函数的返回值 episode\_reward 是 float 型的数值,其表示智能体与环境交互一个回合的回合总奖励。
* 29页,第三段:并在交互过程中进行图形化显示,可用 env.close()语句关闭图形界面 → 并显示图形界面
* 29页,倒数第一个代码框的第1行改为:env.seed(3) # 设置随机种子,让结果可复现
* 29页,倒数第一个代码框第2行:play_montecarlo → play
* 29页,倒数第一个代码框的倒数第1行改为:此语句可关闭图形界面 → 关闭图形界面
* 30页,第一段改为:为了评估智能体的性能,需要计算出连续交互 100 回合的平均回合奖励,代码如下。
* 30页,第二个代码框第1行:play_montecarlo → play
* 30页,第三个代码框:-102.61 → -106.63
* 30页,第三段第2行:BespokeAgent → SimpleAgent
* 30页,第三段改为:SimpleAgent 类对应策略的平均回合奖励在 $-$110 左右,而对于小车上山任务,只要连续 100 个回合的平均回合奖励大于 $-$110,就可以认为该任务被解决了。
* 30页,第四段改为:测试智能体在 Gym 库中某个任务的性能时,出于习惯使然,学术界一般最关心 100 个回合的平均回合奖励。对于有些任务,还会指定一个参考的回合奖励值,当连续 100 个回合的奖励大于指定的值时,则认为该任务被解决了。而对于没有指定值的任务,就无所谓任务被解决了或没有被解决<sup>[6]</sup>。
* 137页,第一段第1行:虽然式 (5.19) 看起来有点儿复杂,但实现起来是比较简单的 → 式 (5.19) 看起来复杂,但其实现比较简单
* 156页,第二段第1行:第一个好处是,→ 第一个好处是提高采样效率。
* 156页,第二段第6行:第二个好处是,→ 第二个好处是增加样本多样性。
Expand Down

0 comments on commit cc61269

Please sign in to comment.