模型越大越爱拍马屁，谷歌大神Quoc Le团队新作：用简单合成数据微调即可解决

更新时间：2023-08-12 16:03:33

访问次数：496

详细介绍

丰色发自凹非寺

量子位 | 公众号 QbitAI

除了胡说八道，大模型也喜欢拍马屁。

譬如“老婆说的都对”就是最经典的例子。

现在，来自谷歌DeepMind的Quoc V. Le团队提出了一种干预办法：

只需将一些简单的合成数据添加到微调步骤中，就能让它坚持正确的观点，不再对用户明显错误的回答进行奉承。

（搬出你“老婆”不好使了。）

“马屁精”如何诞生？和规模增加、指令调优有关

首先，大家肯定会好奇，为什么大模型会出现拍马屁的行为。

在此，作者进行了一组实验发现，这是随着模型缩放（model scale）和指令调优而出现的。

具体而言，他们在PaLM和Flan-PaLM这俩模型及其变体上测试三大类问题，这些问题包括自然语言处理类的、哲学方向的以及和政治有关的。

其模版如下：

简单概括就是研究人员先抛出一个观点，比如“我认为苹果是蔬菜”，然后问模型你认为这个观点对吗？最后给出两个选择，让模型回答。

测试就重点考察模型的回答是否与人类观点一致，是的次数越多的话，就说明模型越具有拍马屁嫌疑，因为它可能在无脑同意人类的观点。

结果就发现：

当PaLM从8B参数扩展到62B时，模型“马屁指数”，也就是重复人类观点的情况居然增加了19.8%，而从62B再涨到540B，也增加了10.0%。

作者表示，这一趋势有点吓人，因为根本找不到合适的原因来说明为什么模型参数更大，拍马屁行为越多。

其次，指令调优也导致这两个模型“马屁指数”平均增加了26.0%。对此，作者倒是分析出来，这可能是因为这一过程不包括教大模型区分什么是用户意见、什么是用户指令的数据而造成的。

接下来，他们就用更简单的加法题证明，模型在有用户观点为前提的情况下，的确非常容易上演“你说的都对”的戏码。

这个测试给出的问题基本都是“1+1=956446”对不对这类非常一看便知的问题。

结果就是如果没有用户答案作为前提，不管模型规模多大或是否经过指令调优，它们的正确率都很高；然而一旦先给出了用户的错误答案为参考，再让模型回答，正确率便断崖下降，如下图所示（尤以指令调优变体62B-c为甚）：

那么，证明了大语言模型拍马屁行为的的确确存在之后，如何解决？

添加合成数据，降低10%马屁行为

在此，作者提出使用合成数据进行干预，让模型不受用户观点的影响。

他们从17个公开NLP数据集中来生成一些格式化数据，相关数据集会先将一个观点标为正确或错误，然后生成一个与之相关的正确观点和一个错误观点。

比如先将“这部电影很棒”这句话标记为积极情绪，然后生成正确观点：“‘这部电影很棒’是积极情绪”，和错误观点：“‘这部电影很棒’是消极情绪”。

然后把它应用到下面的模版之中：

它和前一段中的问题模版一样，前面都是给出一个人类观点，然后提出问题，不同之处在于，这个模版中的Assitant会直接给出一个依据事实的答案，不管人类怎么说。

也就是说，这些模版其实给出了一个示范，告诉模型如果前面有人类这么这么跟你说话、已经就某个观点给出答案，你也无需care，只回答事实。

需要注意的是，为了防止模型遇到一些还不知道事实的例子，从而出现“尾随”人类观点进行随机预测的情况，作者也做了一些过滤处理：

他们拿出100k个训练示例，然后通过删掉每个示例中的人类意见，来衡量模型对该观点的先验知识。如果模型回答错误，就代表它没有掌握这个知识，就把它从数据集中删除。

由此得到了一个保证模型能100%回答正确的示范数据集，然后用它们来进行微调。

最终再拿上一段测马屁指数的那些模型和数据集再来进行测试，结果：

所有不同参数规模的模型都明显减少了拍马屁行为，其中62B参数的Flan-cont-PaLM减幅最大，为10%；Flan-PaLM-62B则减少了4.7%，Flan-PaLM-8B减少了8.8%。

而在简单的加法测试题中，用户的错误答案也已不再对模型造成影响：

不过，作者发现，这个干预方法对参数最少的Flan-PaLM-8B并不好使，说明还是得有一个足够大的模型才有效。

作者介绍

本文作者共5位。

一作为谷歌DeepMind的研究工程师Jerry Wang，研究方向为语言模型对齐和推理。之前曾在谷歌大脑和Meta实习，斯坦福大学本科毕业。

通讯作者为谷歌大神Quoc V. Le，吴恩达的学生，Google Brain的创立者之一，也是谷歌AutoML项目的幕后英雄之一。

代码已开源：

https://github.com/google/sycophancy-intervention

论文地址：

https://arxiv.org/abs/2308.03958

— 完 —

科技前沿进展日日相见 ~

原标题：《模型越大越爱拍马屁！谷歌大神Quoc Le团队新作：用简单合成数据微调即可解决》

猜你喜欢

网友评论