当前位置：首页 >百科 >大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好大模型RLHF不必非得靠人

大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好大模型RLHF不必非得靠人

2024-05-05 06:11:57 [百科] 来源：避面尹邢网

大模型RLHF不必非得靠人，大模得靠谷歌：AI反馈效果一样好

2023-09-05 19:43:05人工智能 RLHF，不必非即基于人类反馈的人谷强化学习，无论是歌A果样ChatGPT还是开源的LLaMA都离不开它。但其中的馈效“H”却是一大瓶颈，因为收集高质量的大模得靠人类反馈实在是太难了。那能不能交给AI来做呢？的不必非确有人就这么干了，但能否替代RLHF一直没有定论，人谷直到Google进行了这项研究。歌A果样

说起现如今训大模型的馈效核心方法，RLHF是大模得靠绕不开的话题。

RLHF，不必非即基于人类反馈的人谷强化学习，无论是歌A果样ChatGPT还是开源的LLaMA都离不开它。

大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好大模型RLHF不必非得靠人

但其中的馈效“H”却是一大瓶颈，因为收集高质量的人类反馈实在是太难了。

大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好大模型RLHF不必非得靠人

那能不能交给AI来做呢？的确有人就这么干了，但能否替代RLHF一直没有定论，直到Google进行了这项研究。

大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好大模型RLHF不必非得靠人

图片

在一篇新发布的arXiv论文中，Google将RLAIF训练出的模型在文本总结上的表现与RLHF做了比较。

RLAIF用AI来代替RLHF中的人类，完成生成反馈的工作，让大模型训练不再受制于人类的局限。

在训练后的人类评价中，人们对RLHF和RLAIF训练后的模型生成的答案倾向性几乎没有差别。

甚至在一些细节上，RLAIF的表现还要优于RLHF。

有AI工程师转发了这篇论文并评论说，到GPT-5的时候可能就不再需要人类数据标注员了。

图片

在介绍详细的评测结果之前，我们不妨先来看看RLAIF的工作流程。

用LLM生成反馈数据

其实RLAIF和RLHF差不多，就是把人换成了AI，从字面上也能看出来。

图片

所以重点自然而然地来到了生成反馈内容上。

研究人员首先让AI在两个答案中进行选择以获得反馈。

为了避免随机性问题，会进行多次选择，其间还会对选项的顺序进行交换。

其中还用到了思维链(CoT)的推理模式，以获取更好的回答。

此外，为了提高LLM的自我一致性，这一过程并非直接二选一，而是分别给两个答案打分，相加为1。

这套流程走下来的prompt和输出大概是酱婶儿的：

图片

举个例子：

图片

有了这些数据，就可以拿来训练奖励模型，进而预测出偏好分数了。

接着，利用训练好的奖励模型，研究人员让目标模型进行强化学习。

与其他模型常用的PPO(Proximal Policy Optimization)算法不同，RLAIF采用的是更为简单有效的修改版A2C(Advantage Actor Critic)算法。

当然，也可以不训练奖励模型，直接用AI生成的标注数据进行强化学习。

实际上，团队得到的标注数据集比奖励模型规模更大也更好用，但考虑这样消耗的计算成本太高，还是选择了奖励模型。

到这里大模型的“课程”就已经学完了，不过要想“毕业”的话还得再经历一场“考试”才行。

“考试”一共包括下面的三项内容：

AI Labeler Alignment：AI偏好相对于人类偏好的精确程度
Pairwise Accuracy：训练好的奖励模型与人类偏好数据集的匹配程度
Win Rate：人类在RLAIF和RLHF生成结果之间的倾向性

经过这样一番测试之后，强化学习终于大功告成。

那么，“AI教出来的学生”成绩究竟怎么样呢？

测试效果可以与RLHF媲美

研究团队找来了1200名人员，在对SFT(基线监督微调)、RLHF、RLAIF以及真人给出的答案从优质到劣质进行排序。

图片

以SFT方式作为基线，RLHF和RLAIF的Win Rate均超过了70%，也就是说人类对这两种方式的倾向程度是SFT的将近三倍。

虽然RLHF的表现略胜于RLAIF，但两者的差距并不明显。

而若以RLHF作为参照，RLAIF的Win Rate则是50%，说明人类对两者的倾向程度是一样的。

图片

有趣的是，两种RL训练出的模型给的结果都远远胜过了真人直接给出的答案。

RLAIF相对于真人的Win Rate高达79%，而RLHF是80%，即倾向性是真人答案的四倍。

此外，在对输出内容进行仔细评估之后，研究人员还发现RLAIF训练出的模型出现幻觉的概率比RLHF更低，逻辑和语法错误也更少。

One More Thing

不过对于RLAIF，也有网友发现了华点：

拿来生成反馈的模型不也是用RLHF训练出来的吗？

图片

而另一边，RLHF的过程当中，也不能排除有的人在用AI“偷懒”的可能。

图片

或许“你中有我，我中有你”才是两种方式测试结果这么接近的原因吗？

论文地址：https://www.arxiv.org/abs/2309.00267

责任编辑：武晓燕来源：量子位模型RLHFAI

(责任编辑：娱乐)

相关内容

推荐文章

成本承压食品企业涨价潮正在逐步侵袭“干饭人”的钱包
继瓜子、酱油、速冻食品之后，饼干也要涨价了。11月3日，“奥利奥饼干将在2022年提价”的消息传遍市场。奥利奥母公司亿滋国际(Mondelez)首席执行官冯朴德(DirkVan ...[详细]
Steam周销榜：《博德之门3》二连冠！星空预购火爆
V社公开了新一期Steam周销榜，从8月8日~8月15日，最强CRPG《博德之门3》继续蝉联榜首，而且它的豪华版DLC也很畅销。排在第二位的是B社备受期待的《星空之地》，看来不少玩家都在预购这款游戏。 ...[详细]
电影《奥本海默》新预告 7月21日正式上映
今日7月11日），环球影业公布传记电影《奥本海默》最新预告片，影片展示了电影片段和布景花絮，你还可以看到导演团队是如何试图重现三位一体核试场景的。《奥本海默》将于7月21日全球上映。这将是克里斯托弗· ...[详细]
游戏改编剧集《烈火战车》正式预告 7月27日播出
今日7月11日），Peacock官方公布游戏改编剧集《烈火战车》正式预告，该剧集将于7月27日在Peacock播出。《烈火战车》由Michael Jonathan Smith《眼镜蛇》）担任编剧和执行 ...[详细]
比速科技(01372.HK)发布公告：拟发行4000万股认购股份
比速科技(01372.HK)发布公告，2021年3月7日，公司(作为发行人)与各认购人订立认购协议，内容有关按认购价每股4.80港元认购合共4000万股认购股份。认购股份合共相当于公司现有已发行股本2 ...[详细]
僧侣档完胜？日网票选2023年夏季番人气主役男性声优
秋叶原总研官方投票企划“2023年夏季番主役男性声优人气投票”已于8月10日结束，这次企划票数共计5128票，最终Top10如下：第1名：黑井多飞冈《夫妇联欢~回不去的夜晚~》 ...[详细]
扛起AI大旗的联想仍将重担压在刘军身上
1、杨元庆并不是不敢突围之人。当年，联想CEO尚由威廉•阿梅里奥担任时，由于对利润与股价过分重视，导致突破型发展投资被按住不动，公司创新进取精神被强行遏制。杨元庆选择插手公司具体运营，主抓消费类电脑业 ...[详细]
小米13 Ultra影像探索家公布：强哥来了！
今日早间，小米官方继续为将于晚上发布的新机小米13Ultra带来预热，这次公布的是新的代言人。“介绍一位新朋友：小米影像探索家@张颂文老师。我非常钦佩他，他对每一个角色的演绎，都来自真实的生活体验，他 ...[详细]
海外客商抢抓中国新春机遇境外消费回流对进口消费产生一定带动作用
哥斯达黎加的雨林水、斯洛伐克的水晶杯、南非的牛排、斯洛文尼亚的南瓜籽油……今年红火的中国新春消费市场吸引了一批海外客商，这些“全球年货搬运工”全年不 ...[详细]
P5佐仓双叶美版配音演员因AI二次创作退网
玩家的群体是庞大的，这也导致有着不同爱好和认知的人们出现，也引发了不同观点之间的攻击和矛盾。近日，一名《女神异闻录5》欧美配音演员，在网上因为玩家使用AI技术进行声音二创，选择退网。上周，负责为美版《 ...[详细]

热点阅读

随机内容

友情链接

接受PR>=1、BR>=1，流量相当，内容相关类链接。