返回介绍

Policy Gradients

发布于 2025-05-02 13:36:20 字数 1856 浏览 0 评论 0 收藏

作者: Morvan 编辑: Morvan

欢迎观看有趣的机器学习系列视频,今天我们会来说说强化学习家族中另一类型算法,叫做 Policy Gradients.

注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章。

和以往的强化学习方法不同

强化学习是一个通过奖惩来学习正确行为的机制. 家族中有很多种不一样的成员,有学习奖惩值,根据自己认为的高价值选行为,比如 Q learning, Deep Q Network, 也有不通过分析奖励值,直接输出行为的方法,这就是今天要说的 Policy Gradients 了. 甚至我们可以为 Policy Gradients 加上一个神经网络来输出预测的动作. 对比起以值为基础的方法, Policy Gradients 直接输出动作的最大好处就是,它能在一个连续区间内挑选动作,而基于值的,比如 Q-learning, 它如果在无穷多的动作中计算价值,从而选择行为,这,它可吃不消。

更新不同之处

有了神经网络当然方便,但是,我们怎么进行神经网络的误差反向传递呢? Policy Gradients 的误差又是什么呢? 答案是! 哈哈,没有误差! 但是他的确是在进行某一种的反向传递. 这种反向传递的目的是让这次被选中的行为更有可能在下次发生. 但是我们要怎么确定这个行为是不是应当被增加被选的概率呢? 这时候我们的老朋友, reward 奖惩正可以在这时候派上用场,

具体更新步骤

现在我们来演示一遍,观测的信息通过神经网络分析,选出了左边的行为,我们直接进行反向传递,使之下次被选的可能性增加,但是奖惩信息却告诉我们,这次的行为是不好的,那我们的动作可能性增加的幅度 随之被减低. 这样就能靠奖励来左右我们的神经网络反向传递. 我们再来举个例子,假如这次的观测信息让神经网络选择了右边的行为,右边的行为随之想要进行反向传递,使右边的行为下次被多选一点,这时,奖惩信息也来了,告诉我们这是好行为,那我们就在这次反向传递的时候加大力度,让它下次被多选的幅度更猛烈! 这就是 Policy Gradients 的核心思想了. 很简单吧。

如果你觉得这篇文章或视频对你的学习很有帮助,请你也分享它,让它能再次帮助到更多的需要学习的人。

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。