大家好,我是 Bob! 😊 一个想和大家慢慢变富的 AI 程序员💸 分享 AI 前沿技术、项目经验、面试技巧! 欢迎关注我,一起探索,一起破圈!💪
link:https://arxiv.org/abs/2009.01325
了在各种自然语言处理(NLP)任务上实现高性能,大规模语言模型预训练已经变得越来越普遍。当将这些模型应用于特定任务时,通常使用监督学习对其进行微调,通常是为了最大化一组人类演示的对数概率。
虽然这种策略显着提高了性能,但这种微调目标(最大化人类编写文本的可能性)与我们关心的目标(生成由人类确定的高质量输出)之间仍然存在偏差。这种不一致有几个原因:最大似然目标>在重要错误(例如编造事实[41])和不重要错误(例如从一组同义词中选择精确的单词)之间没有区别;型号
简单来说,有监督的微调(SFT)只能告诉模型什么是对的,但是对于不能做的、什么是错误的没有指出。
ps:一般的老师会教学生怎么解题,资深的老师除了教学生解题,还会和学生说“大多数同学会在xxx地方犯错,注意xxx这个细节,不要踩坑”
收集人类偏好数据集:研究人员收集了大量高质量的人类比较数据,这些数据反映了人类对不同摘要质量的偏好。
训练奖励模型(Reward Model, RM):使用监督学习方法,基于收集的人类偏好数据训练奖励模型,以预测哪个摘要更可能被人类偏好。
训练策略(Policy):通过强化学习(RL),训练一个策略模型来最大化奖励模型给出的分数。策略模型在每次“时间步”生成一个文本标记,并使用PPO算法基于奖励模型给出的“奖励”来更新。
迭代过程:使用策略模型生成的样本,收集更多的人类数据,并重复上述过程。
1. 奖励模型训练:
从监督学习基线开始,添加一个随机初始化的线性头,输出一个标量值。 模型被训练来预测两个摘要y0和y1中哪一个更受人类偏好,给定一个帖子x。 如果人类偏好的摘要是yi,则奖励模型的损失函数loss(rθ)定义为:
其中rθ(x, y)是奖励模型对于帖子x和摘要y的标量输出,参数为θ,D是人类判断的数据集。
训练结束后,对奖励模型的输出进行归一化,使得数据集中的参考摘要的平均分数为0。
2. 人类反馈策略
使用强化学习(RL),将奖励模型的输出作为整个摘要的奖励,并通过PPO(Proximal Policy Optimization)算法最大化这个奖励。 在每个时间步生成一个BPE(Byte Pair Encoding)标记,并使用PPO算法基于奖励模型给出的“奖励”来更新策略。
策略初始化为在Reddit TL;DR数据集上微调过的模型。
在奖励中加入一项,惩罚学习到的RL策略πRL φ与原始监督学习模型πSFT之间的KL散度(Kullback-Leibler divergence),以鼓励策略探索并防止策略产生与训练期间奖励模型所见输出差异太大的结果。 完整的奖励R定义为:
其中β是KL散度项的系数。
对于PPO的价值函数,使用与策略完全分离参数的Transformer,以防止价值函数的更新破坏预训练策略。价值函数初始化为奖励模型的参数。在实验中,奖励模型、策略和价值函数的大小相同。
我们使用人类反馈训练的策略在该指标上显着优于我们的监督基线,我们的 1.3B 人类反馈模型显着优于其大小 10 倍的监督模型(相对于参考摘要,原始偏好得分为 61% 与 43%)。我们的 6.7B 模型反过来明显优于我们的 1.3B 模型,这表明利用人类反馈进行训练也受益于规模。
我们发现,在控制长度(附录 F)后,我们的人类反馈模型与参考摘要的偏好下降了约 5%;即便如此,在大约 65% 的情况下,我们的 6.7B 模型摘要仍然优于参考摘要。
1.【Bob 的 AI 成长陪伴群】门票 🎫99💰/年。
2.【AI+老人回忆录制作】正在运营,有需求 或者 想加入 可微信私聊。
3.【语音咨询】:99💰/小时
群里分享讨论:
🔴AI 变现项目、AI 前沿技术、NLP 知识技术分享、前瞻思考、面试技巧、找工作等
🔴 个人 IP 打造、自媒体副业、向上社交、以及我的日常生活所见所闻,所思所想。
找一群人一起走,慢慢变富。期待和同频 朋的 友一起蜕变!
扫码加微信,链接不迷路!
本文作者:Bob
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!