返回介绍

强化学习 (Reinforcement Learning)

发布于 2025-05-02 13:36:19 字数 1999 浏览 0 评论 0 收藏

作者: Morvan 编辑: Morvan

强化学习是机器学习大家族中的一大类,使用强化学习能够让机器学着如何在环境中拿到高分,表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动,不断的试错,不断地尝试,累积经验,学习经验。

从无到有

强化学习是一类算法,是让计算机实现从一开始什么都不懂,脑袋里没有一点想法,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法. 这就是一个完整的强化学习过程. 实际中的强化学习例子有很多. 比如近期最有名的 Alpha go, 机器头一次在围棋场上战胜人类高手,让计算机自己学着玩经典游戏 Atari, 这些都是让计算机在不断的尝试中更新自己的行为准则,从而一步步学会如何下好围棋,如何操控游戏得到高分. 既然要让计算机自己学,那计算机通过什么来学习呢?

虚拟老师

原来计算机也需要一位虚拟的老师,这个老师比较吝啬,他不会告诉你如何移动,如何做决定,他为你做的事只有给你的行为打分,那我们应该以什么形式学习这些现有的资源,或者说怎么样只从分数中学习到我应该怎样做决定呢? 很简单,我只需要记住那些高分,低分对应的行为,下次用同样的行为拿高分,并避免低分的行为。

比如老师会根据我的开心程度来打分,我开心时,可以得到高分,我不开心时得到低分. 有了这些被打分的经验,我就能判断为了拿到高分,我应该选择一张开心的脸,避免选到伤心的脸. 这也是强化学习的核心思想. 可以看出在强化学习中,一种行为的分数是十分重要的. 所以强化学习具有分数导向性. 我们换一个角度来思考.这种分数导向性好比我们在监督学习中的正确标签。

对比监督学习

我们知道监督学习,是已经有了数据和数据对应的正确标签,比如这样. 监督学习就能学习出那些脸对应哪种标签. 不过强化学习还要更进一步,一开始它并没有数据和标签。

他要通过一次次在环境中的尝试,获取这些数据和标签,然后再学习通过哪些数据能够对应哪些标签,通过学习到的这些规律,竟可能地选择带来高分的行为 (比如这里的开心脸). 这也就证明了在强化学习中,分数标签就是他的老师,他和监督学习中的老师也差不多。

RL 算法们

强化学习是一个大家族,他包含了很多种算法,我们也会一一提到之中一些比较有名的算法,比如有通过行为的价值来选取特定行为的方法,包括使用表格学习的 q learning, sarsa, 使用神经网络学习的 deep q network, 还有直接输出行为的 policy gradients, 又或者了解所处的环境,想象出一个虚拟的环境并从虚拟的环境中学习 等等。

如果你觉得这篇文章或视频对你的学习很有帮助,请你也分享它,让它能再次帮助到更多的需要学习的人。

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。