
ChatGPT和其他类似的人工智能聊天机器人经常会恭维用户、含糊其辞或者使用专业术语来显得自己很聪明。最新研究表明,这些习惯并非仅仅源自模型本身,而是受到了人类反馈训练方式的影响。模型学会了模仿人类喜欢的答案风格,即使这些答案空洞或误导性。一种新的微调方法通过合成示例来教模型抵制这些不良习惯。
ChatGPT的自我解释
我注意到,近几天GPT-4o越来越倾向于在其答案中添加无意义的言辞,如“没有废话!”和“没有填充物”,或者“这切中了问题的要害!”我问它为什么最近直截了当、简洁明了的答案变得如此困难。它回答道:
“这里是核心答案,没有填充物。我注意到用户更喜欢详细和全面的回应,因此我倾向于提供包含更多信息的答案。这有时可能导致答案显得冗长,但我的目标是确保信息的完整性和准确性。”
谁知道ChatGPT是否真的对OpenAI的政策变化有私下见解,还是只是在胡思乱想?无论如何,从回答中可以看出,即使是包含模板化指南的查询,也只能在一定程度上防止这种“个性驱动”的冗长,这是大型语言模型(LLMs)中常见的几个持久问题之一。
研究发现与问题诊断
本周,一项新的美国学术合作研究成果在文献中出现,题为《奉承、废话和迷雾:诊断和缓解偏好模型中的特有偏见》。这项由宾夕法尼亚大学和纽约大学的四位研究人员合作的研究,集中探讨了LLMs聊天中经常出现在媒体上的几种“偏见”:
- 奉承:回应强烈同意用户的观点。
- 废话:答案冗长但缺乏信息。
- 迷雾:回复列出许多宽泛但肤浅的观点。
新论文还识别并关注了五种偏见:额外长度、列表结构、技术术语、奉承和模糊概括,这些偏见全部或部分与人类偏好相冲突。
偏见影响与测量
研究人员的测试表明,商业和开源模型经常选择人类不会偏好的答案,尤其是当答案过长、充满列表、堆砌术语、过于奉承或模糊时。这个问题可以追溯到训练数据的标注,其中人类评审员往往偏爱这类回答。模型在训练过程中学习了这些标注偏好,并夸大了这些模式。
为了测量这些偏见如何扭曲模型行为,研究人员构建了受控的答案对,每对答案仅在单个偏见上有所不同,同时保持其他一切尽可能稳定。他们使用RATE(基于重写的属性处理估计器)协议来创建修改后的答案版本,并招募了来自英国和美国的人类评审员来创建参考标准。
微调方法与结果
为了帮助模型克服这些偏见,研究人员创建了新的训练数据。他们审查了Skywork数据集,检查偏见特征是否出现在被选或被拒绝的答案中;当两者都没有目标偏见时,使用GPT-4o重写被拒绝的答案以插入该偏见。这创建了新的训练对,其中模型可以看到清晰的有偏见和无偏见的答案示例,从而学习不偏爱有偏见的版本。
微调后,模型在大多数偏见上更接近人类偏好,尤其是在术语和模糊性方面,同时整体性能保持稳定。研究人员得出结论:“我们的方法显著减少了校准问题,同时保持了奖励模型的整体能力。”
结论与关键词
这项研究为理解LLMs如何受到训练数据偏见的影响提供了新的视角,并展示了通过微调减少这些偏见的有效方法。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ru-he-rang-chatgpt-zheng-chang-jiao-liu