如何理解看待 OpenAI 公布PPO算法？

日期：2023-09-24 02:57

回答一:

TRPO得到的结果是PPO(tRustregionpolicyoptimization)类似的解决方案。TRPO规定解一个constrAInedoptimization(KLdivergence低于某个值)，而PPO则直接将constraints放入objective中。

在TRPO中，这个optimization需要使用conjugategradient的近似解决方案，并且需要规定constraint的二次导向KLdivergence，所以当问题很大时，它会花费大量的资源。而且PPO只需要一次导的信息，这样就大大节省了资源，可以应用到规模较大的问题上(自然需要添加一些细节，这样结果就不会和TRPO差太多了)。Deepmind最近的一篇文章EmergenceofLocomotiotiotionBen(DPPO)）.

现在OpenAI已经把PPO当作默认算法，deepmind也在最近的几篇文章中使用过，所以我认为有什么问题可以深入加强学习，那就勇敢地使用这个算法吧。

Azure OpenAI 企业API接口开通申请：https://www.introzo.com/r/7Y4wFaqAxV

回答二：

事实上，PPO的本质应该是：

对于likelihood-ratiopolicygradient算法，本质上是提高“好”样本的可能性，降低“差”样本的可能性。那普通的策略梯度是怎样的呢？这是关于一种取样，如果它的return恰好很高，那么它的可能性就会迅速增加，相反，如果return是负的，那么它的可能性就会迅速降低。这实际上是不稳定的，因为策略梯度方差本来就很大。所以，PPO从更新中忽略了这种样本。仅此而已。

回答三：

PPO算法这个太专业了，我尽量简单一点。

在加强学习算法的突破中，两个指标非常重要，一个是你能得到多少关于你最终改进的对策，另一个是你的样本效率。

第一个标准很容易理解，就是看你使用的最终效果。第二个标准的原因来自一个客观事实。互动获取数据往往非常昂贵。我们应该尽可能少地使用互动来实现可用的情况。PPO算法就是解决这些问题。

回答四：

OpenAI发布的PPO算法是一种基于概率的策略优化算法，它可以升级对策参数，以满足环境的变化。

它可以在更低的步骤中获得更多的利润，并更快地学习改变的环境。PPO算法可以帮助研究人员更好地了解机器人行为，帮助他们处理机器人行为控制问题。

也可用于无人驾驶、机器人操作、空中制导技术等机器人领域的任务。

最近发表

猜你喜欢

如何理解看待 OpenAI 公布PPO算法？

相关文章