THE OLXTOTO DIARIES

The olxtoto Diaries

The olxtoto Diaries

Blog Article

知乎,让每一次点击都充满意义 —— 欢迎来到知乎,发现问题背后的世界。

知乎,让每一次点击都充满意义 —— 欢迎来到知乎,发现问题背后的世界。

打个小广告 ☻,知乎专栏《大模型前沿应用》的内容已经收录在新书《揭秘大模型:从原理到实战》中。感兴趣的朋友可以购买,多谢支持!♥♥

其中, 是初始状态 发生的概率, 为给定状态 策略函数采取动作 的概率, 为给定当前状态 和动作 ,环境转移到状态 的概率。

知乎,让每一次点击都充满意义 —— 欢迎来到知乎,发现问题背后的世界。

另一个角度来说,由 的公式,我们相当于是得到了 和 的关系,那么是否我们可以把训练 转化成直接去训练 呢?

可以使用学习率为 的梯度上升方法优化策略参数 ,使之能够获得更高的回报:

价值函数的值是对未来奖励的预测,可以用它来评估状态的好坏。价值函数可以只根据当前的状态 决定,使用 表示。也可以根据当前状态 以及动作 表示,使用 表示。 和 的具体定义如下:

知乎,让每一次点击都充满意义 —— 欢迎来到知乎,发现问题背后的世界。

和 分别是好的回答和不好的回答。也就是说,要尽可能让好的回答的得分比不好的回答高,拉大他们之间的差别。

智能体在这个过程中不断学习,它的最终目标是:找到一个策略,这个策略根据当前观测到的环境状态和奖励反馈,来选择最佳的动作。

Besuchen Sie unsere Seite erneut, um unsere Dienste in Anspruch zu nehmen, wird automatisch erkannt, dass Sie bereits bei uns waren und welche Eingaben und Einstellungen sie getätigt haben, um diese nicht noch einmal eingeben zu müssen.

其中 表示使用参数为 的策略与环境交互的期望回报,轨迹 服从 的概率分布。

实际计算时,需要从环境中采样很多轨迹 ,然后按照上述策略梯度公式对策略函数参数 进行更新。但是由于 是从概率分布 中采样得到,一旦策略函数参数 更新,那么概率分布 就会发生变化,因而之前采样过的轨迹便不能再次利用。所以策略梯度方法需要在不断地与环境交互中学习而不能利用历史数据。因而这种方法的训练效率低下。

正是因为强化学习具有这些优点,它在大模型方面被广泛应用。本文我们就来介绍一下这一强有力的技术。

知乎,让每一次点击都充满意义 —— olxtoto 欢迎来到知乎,发现问题背后的世界。

其中 ,即回报的期望。这一项在实践中常用的计算方法是,在训练过程中记录历史 的均值用以估计回报的期望。

Report this page