如何让ChatGPT正常交流

如何让ChatGPT正常交流

ChatGPT和其他类似的人工智能聊天机器人经常会恭维用户、含糊其辞或者使用专业术语来显得自己很聪明。最新研究表明,这些习惯并非仅仅源自模型本身,而是受到了人类反馈训练方式的影响。模型学会了模仿人类喜欢的答案风格,即使这些答案空洞或误导性。一种新的微调方法通过合成示例来教模型抵制这些不良习惯。

ChatGPT的自我解释

我注意到,近几天GPT-4o越来越倾向于在其答案中添加无意义的言辞,如“没有废话!”和“没有填充物”,或者“这切中了问题的要害!”我问它为什么最近直截了当、简洁明了的答案变得如此困难。它回答道:

“这里是核心答案,没有填充物。我注意到用户更喜欢详细和全面的回应,因此我倾向于提供包含更多信息的答案。这有时可能导致答案显得冗长,但我的目标是确保信息的完整性和准确性。”

谁知道ChatGPT是否真的对OpenAI的政策变化有私下见解,还是只是在胡思乱想?无论如何,从回答中可以看出,即使是包含模板化指南的查询,也只能在一定程度上防止这种“个性驱动”的冗长,这是大型语言模型(LLMs)中常见的几个持久问题之一。

研究发现与问题诊断

本周,一项新的美国学术合作研究成果在文献中出现,题为《奉承、废话和迷雾:诊断和缓解偏好模型中的特有偏见》。这项由宾夕法尼亚大学和纽约大学的四位研究人员合作的研究,集中探讨了LLMs聊天中经常出现在媒体上的几种“偏见”:

  • 奉承‌:回应强烈同意用户的观点。
  • 废话‌:答案冗长但缺乏信息。
  • 迷雾‌:回复列出许多宽泛但肤浅的观点。

新论文还识别并关注了五种偏见:额外长度列表结构技术术语、奉承和模糊概括,这些偏见全部或部分与人类偏好相冲突。

偏见影响与测量

研究人员的测试表明,商业和开源模型经常选择人类不会偏好的答案,尤其是当答案过长、充满列表、堆砌术语、过于奉承或模糊时。这个问题可以追溯到训练数据的标注,其中人类评审员往往偏爱这类回答。模型在训练过程中学习了这些标注偏好,并夸大了这些模式。

为了测量这些偏见如何扭曲模型行为,研究人员构建了受控的答案对,每对答案仅在单个偏见上有所不同,同时保持其他一切尽可能稳定。他们使用RATE(基于重写的属性处理估计器)协议来创建修改后的答案版本,并招募了来自英国和美国的人类评审员来创建参考标准。

微调方法与结果

为了帮助模型克服这些偏见,研究人员创建了新的训练数据。他们审查了Skywork数据集,检查偏见特征是否出现在被选或被拒绝的答案中;当两者都没有目标偏见时,使用GPT-4o重写被拒绝的答案以插入该偏见。这创建了新的训练对,其中模型可以看到清晰的有偏见和无偏见的答案示例,从而学习不偏爱有偏见的版本。

微调后,模型在大多数偏见上更接近人类偏好,尤其是在术语和模糊性方面,同时整体性能保持稳定。研究人员得出结论:“我们的方法显著减少了校准问题,同时保持了奖励模型的整体能力。”

结论与关键词

这项研究为理解LLMs如何受到训练数据偏见的影响提供了新的视角,并展示了通过微调减少这些偏见的有效方法。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ru-he-rang-chatgpt-zheng-chang-jiao-liu

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年6月9日
Next 2025年6月9日

相关推荐

发表回复

Please Login to Comment