QwenLong-L1：突破当前大型语言模型的长文本推理挑战‌

王浩然 • 2025年6月1日下午4:00 • AI前沿 • 565 views

阿里巴巴集团近日推出了一款名为QwenLong-L1的全新框架，该框架能够使大型语言模型（LLMs）在极长的输入文本上进行推理。这一发展有望开启一波新的企业应用浪潮，这些应用需要模型能够理解并从大量文档中提取见解，如详细的公司报告、冗长的财务报表或复杂的法律合同。

‌人工智能面临的长文本推理挑战‌

近年来，大型推理模型（LRMs）的进展，特别是通过强化学习（RL）的进展，显著提升了其解决问题的能力。研究表明，当通过RL微调进行训练时，LRMs能够获得与人类“慢思考”相似的技能，即发展出解决复杂任务的复杂策略。然而，这些改进主要体现在模型处理相对短小的文本时，通常大约是4000个词元（tokens）。当需要将这些模型的推理能力扩展到更长的上下文（例如12万个词元）时，仍然面临重大挑战。长文本推理需要对整个上下文有深刻的理解，以及执行多步骤分析的能力。

QwenLong-L1的开发者在他们的论文中写道：“这一局限性对需要与外部知识交互的实际应用构成了重大障碍，例如在深度研究中，LRMs必须从知识密集型环境中收集和处理信息。”研究者们将这些挑战归纳为“长上下文推理RL”的概念。与短上下文推理不同，短上下文推理通常依赖于模型内部存储的知识，而长上下文推理RL要求模型能够准确地从长篇输入中检索和整合相关信息，然后基于这些信息生成推理链。

‌通过RL训练模型进行长文本推理是棘手的‌

通过RL训练模型进行长文本推理既复杂又困难，通常会导致低效的学习和不稳定的优化过程。模型难以收敛到好的解决方案，或者会丧失探索不同推理路径的能力。

‌QwenLong-L1：多阶段方法‌

QwenLong-L1是一款强化学习框架，旨在帮助LRMs从擅长处理短文本过渡到在长文本上下文中实现稳健泛化。该框架通过精心设计的多阶段过程来增强现有的短上下文LRMs：

‌预热监督微调（SFT）‌：模型首先进入SFT阶段，在此阶段，它将在长文本推理的示例上进行训练。这一阶段为模型打下了坚实的基础，使其能够准确地从长输入中提取信息。它有助于发展理解上下文、生成逻辑推理链和提取答案的基本能力。
‌课程指导的分阶段RL‌：在此阶段，模型通过多个阶段进行训练，输入文档的目标长度逐渐增加。这种系统、逐步的方法有助于模型稳定地调整其推理策略，从较短的上下文逐渐过渡到较长的上下文。这避免了当模型突然在非常长的文本上进行训练时经常出现的不稳定性。
‌难度感知回顾采样‌：最终训练阶段融入了先前训练阶段中的挑战性示例，确保模型继续从最难的问题中学习。这优先考虑了困难实例，并鼓励模型探索更多样化和复杂的推理路径。

除了结构化训练外，QwenLong-L1还使用了一种独特的奖励系统。训练短上下文推理任务通常依赖于严格的基于规则的奖励（例如，数学问题的正确答案），而QwenLong-L1则采用了一种混合奖励机制。这结合了基于规则的验证（通过检查是否符合正确性标准来确保准确性）和“LLM作为评判者”。评判者模型比较生成答案与真实答案的语义性，从而在处理冗长且微妙的文档时提供了更大的灵活性和对正确答案的多样表达方式的更好处理。

‌QwenLong-L1的测试‌

阿里巴巴团队使用文档问答（DocQA）作为主要任务来评估QwenLong-L1。这一场景与企业需求高度相关，其中AI必须理解密集文档以回答复杂问题。在七个长上下文DocQA基准测试中的实验结果表明了QwenLong-L1的能力。特别是，基于DeepSeek-R1-Distill-Qwen-32B的QWENLONG-L1-32B模型的表现与Anthropic的Claude-3.7 Sonnet Thinking相当，并且优于OpenAI的o3-mini和Qwen3-235B-A22B等模型。较小的QWENLONG-L1-14B模型也优于Google的Gemini 2.0 Flash Thinking和Qwen3-32B。

一个与实际应用相关的重要发现是，通过RL训练，模型发展出了专门的长上下文推理行为。论文指出，使用QwenLong-L1训练的模型在“落地”（将答案与文档的特定部分联系起来）、“子目标设定”（分解复杂问题）、“回溯”（在推理过程中识别和纠正自己的错误）以及“验证”（复核自己的答案）方面表现更好。例如，当基础模型可能会被财务文档中的无关细节分散注意力或陷入过度分析不相关信息的循环时，经过QwenLong-L1训练的模型展示出了进行有效自我反思的能力。它能够成功过滤掉这些干扰细节，从错误的路径回溯，并得出正确答案。

‌QwenLong-L1技术的潜在应用‌

像QwenLong-L1这样的技术可以显著扩大AI在企业中的实用性。潜在应用包括法律科技（分析成千上万页的法律文件）、金融（对年度报告和财务报表进行深入研究以进行风险评估或寻找投资机会）以及客户服务（分析长期的客户互动历史以提供更知情的支持）。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/qwenlongl1-tu-po-dang-qian-da-xing-yu-yan-mo-xing-de-zhang

QwenLong-L1 企业应用大型语言模型强化学习文档问答混合奖励机制监督微调课程指导分阶段RL 长文本推理难度感知回顾采样

Like (0)

王浩然作者

0 0

ElevenLabs推出Conversational AI 2.0：更懂对话节奏的语音助手

Previous 2025年6月1日

工程的未来：属于与AI共建者，而非无AI者‌

Next 2025年6月1日

AI前沿

Meta 豪掷 20 亿收购 AI 代理初创公司，宣称与中国切断一切联系

在科技巨头 Meta 的发展版图中，近期的一项收购行动引发了广泛关注。Meta 以 20 亿美元的价格收购了一家 AI 代理初创公司，这本是一次在 AI 领域的重大布局，然而，随之…

王浩然
2026年1月2日
000
AI前沿

‌Anthropic发布企业版Claude升级：强化管理合规功能但维持使用限制‌

在2025年8月企业AI解决方案竞争白热化之际，Anthropic宣布针对Claude Enterprise和Teams用户推出重大升级方案。这项包含管理控制台与合规API的增强包…

王浩然
2025年8月23日
000
AI前沿

Google Gemini 意外超越 OpenAI 跃居第一，但基准测试并不能说明全部情况

谷歌凭借其最新实验模型在一项关键的人工智能基准测试中名列前茅，标志着人工智能竞赛发生重大转变——但业内专家警告称，传统的测试方法可能不再有效衡量真正的人工智能能力。该模型名为“ …

王浩然
2024年11月19日
000
AI前沿

AI先驱因强化学习研究荣获图灵奖‌

在人工智能领域，一项至高无上的荣誉近日揭晓——几位在强化学习领域取得卓越成就的AI先驱荣获了图灵奖。这一奖项不仅是对他们个人才华和贡献的认可，更是对整个强化学习社区乃至整个AI领域…

王浩然
2025年3月8日
000
AI前沿

Wiz 揭露全球 AI 竞赛下的安全漏洞：以微软案例为核心的行业警示

2023 年至 2025 年间，云安全公司 Wiz 在对全球 AI 相关数据安全的持续监测中，多次发现重大安全漏洞，尤其聚焦于科技巨头在 AI 快速迭代过程中因配置失误、流程疏忽引…

王浩然
2025年11月13日
000
AI前沿

廉价的人工智能“视频抓取”现在可以从任何屏幕录像中提取数据

最近，人工智能研究员 Simon Willison 想要汇总使用云服务的费用，但他需要的付款金额和日期分散在十几封不同的电子邮件中。手动输入这些信息会很繁琐，因此他采用了一种他称之…

点点
2024年10月21日
000
AI前沿

人工智能经济影响引关注，Anthropic推出经济未来计划

随着生成式人工智能（AI）技术的飞速发展，其在全球经济和社会中的影响日益凸显。然而，AI技术所带来的潜在就业市场冲击也引发了广泛关注。在此背景下，人工智能研究公司Anthropic…

王浩然
2025年7月3日
000
AI前沿

并非越大越好：探讨数百万令牌大型语言模型的商业案例

在人工智能领域，大型语言模型（LLMs）正朝着数百万令牌的容量迈进，这一趋势引发了AI界的热烈讨论。模型如MiniMax-Text-01拥有400万令牌的容量，而Gemini 1.…

王浩然
2025年4月14日
000
AI前沿

2026：企业领域特定 AI 之年

在人工智能（AI）不断演进的历程中，2026 年有望成为具有里程碑意义的一年，标志着领域特定 AI 在企业中的全面崛起与广泛应用。领域特定 AI 专注于解决特定行业或业务领域内的问…

王浩然
2026年1月3日
000
AI前沿

OpenAI 招募微软副总裁，加剧 AI 人才争夺战

Sebastien Bubeck 曾任微软生成式人工智能副总裁

点点
2024年10月22日
000
AI前沿

YC收紧加拿大创业公司准入：AI创新生态的裂痕与变局

作为硅谷传奇创业加速器，Y Combinator（简称YC）曾一手孵化出Stripe、Airbnb、Dropbox等全球科技巨头，在创业圈拥有无可撼动的影响力。但近期这家机构悄然推…

王浩然
2026年2月5日
000
AI前沿

为什么人工智能开发人员对 Claude 3.5 的计算机使用功能赞不绝口

Anthropic 刚刚发布了 Claude 3.5，这是其 LLM 系列的一个功能强大的新版本。虽然这个模型带来了改进的推理和编码技能，但真正令人兴奋的是围绕一项名为“计算机使用…

点点
2024年11月5日
000
AI前沿

AI在2025年：仍是你的高效实习生，而非创意总监‌

2025年夏季，由AI生成的乐队“Velvet Sundown”在Suno平台上发布的单曲《Dust on the Wind》一周内突破百万Spotify播放量。这首歌拥有忧郁的嗓…

王浩然
2025年10月3日
000
AI前沿

AI竞赛中的战略制胜法则：为何系统性思维比技术速度更重要‌

在2025年这个被称作”AI应用元年”的时间节点，企业界正陷入一场前所未有的技术军备竞赛。Smartsheet产品管理副总裁米娅·麦克莱恩的最新研究揭示了一…

王浩然
2025年9月24日
000
AI前沿

为何你的大语言模型账单飙升，语义缓存如何削减 73% 成本

在大语言模型（LLM）广泛应用的当下，许多用户发现使用 LLM 的成本急剧上升，账单金额不断飙升。这一现象背后有着多方面的原因，而语义缓存技术则为大幅削减成本提供了一个颇具潜力的解…

王浩然
2026年1月15日
000
AI前沿

Snowflake 击败 Databricks，直接集成 Claude 3.5

在宣布25财年第三季度收益后不久，Snowflake就爆出重磅消息：它正在与领先的AI供应商Anthropic合作，为其客户进一步推进AI项目。这家数据生态系统巨头签署了一项多…

王浩然
2024年11月24日
000
AI前沿

维护陷阱：为何 AI 氛围测试是质量保障（QA）的未来

人工智能已彻底重塑软件创作节奏 —— 借助 GitHub Copilot、ChatGPT 等工具，代码生成时间从数周缩短至分钟级，界面更新几乎每日迭代。然而，在这种高速发展中，本应…

王浩然
2025年11月28日
000
AI前沿

泰勒斯报告：AI与量子威胁成为安全议程重中之重‌

在数字化转型浪潮中，人工智能（AI）与量子计算正以前所未有的速度重塑各行各业。然而，随着技术的飞速发展，与之相伴的安全威胁也日益凸显。根据泰勒斯公司最新发布的《2025年数据威胁报…

王浩然
2025年5月23日
000
AI前沿

企业仍面临 AI 数据挑战：数据碎片化与适配难题阻碍 AI 落地价值

当前企业在 AI 落地过程中，仍受困于此前 “大数据时代” 未解决的数据问题 —— 数据来源分散、格式不统一、质量参差不齐等痛点，正成为 AI 项目失败的核心诱因。尽管 AI 技术…

王浩然
2025年10月22日
000
AI前沿

微软宣布停用 AutoGen，推出全新 Agent Framework：实现智能体的统一构建与治理

在 AI 智能体（Agent）开发领域，框架的碎片化与企业级治理难题长期制约着技术落地 —— 不同智能体工具间兼容性不足、多场景协作逻辑混乱、生产环境中的安全与合规风险难以管控。2…

王浩然
2025年10月5日
000

发表回复

Please Login to Comment

QwenLong-L1：突破当前大型语言模型的长文本推理挑战‌

相关推荐

发表回复