中英文对照学习，效果更佳！
原课程链接：https://huggingface.co/deep-rl-course/unit2/q-learning?fw=pt

Additional Readings

附加读数

These are optional readings if you want to go deeper.

如果你想更深入，这些都是可选的读物。

PPO Explained

PPO解释

PPO Implementation details

Daniel Bick对最近策略优化的连贯而完整的解释：理解RL中的最近策略优化算法的方法是什么？Pieter Abbee所著的Deep RL系列、L4 TRPO和PPO的基础OpenAI PPO博客文章旋转RL PPO纸张最近策略优化算法PPO实现细节

Importance Sampling

《近期政策优化的37个实施细节》《近期政策优化实施：11个核心实施细节重要抽样》第1部分

Importance Sampling Explained

Reinforcement

#Reinforcement

L11-Unit_8-Part_1_Proximal_Policy_Optimization_(PPO)-F5-Conclusion 上一篇

M12-Unit_8-Part_2_Proximal_Policy_Optimization_(PPO)_with_Doom-A0-Introduction 下一篇