OpenAI 推出 GPT-5.1-Codex-Max 编程模型，已完成 24 小时内部任务

王浩然 • 2025年11月22日下午12:00 • AI前沿 • 193 views

OpenAI 正式发布新一代前沿智能体编程模型 GPT-5.1-Codex-Max，该模型现已在 Codex 开发者环境中上线，标志着 AI 辅助软件工程领域迎来重要突破 —— 在长时程推理、开发效率与实时交互能力上实现显著提升，将全面取代 GPT-5.1-Codex，成为所有 Codex 集成界面的默认模型。作为一款专注于软件开发场景的智能体模型，GPT-5.1-Codex-Max 的核心定位是 “持续型、高上下文编程助手”，能够处理跨多个上下文窗口的复杂重构、调试流程与项目级任务，甚至在内部测试中完成了持续超过 24 小时的开发任务，展现出前所未有的自主性与稳定性。

在性能基准测试中，GPT-5.1-Codex-Max 面对谷歌同期发布的 Gemini 3 Pro，仍在关键编程场景中展现出竞争优势。在衡量实际软件问题解决能力的 SWE-Bench Verified 测试中（超高推理强度模式），其准确率达到 77.9%，略微领先于 Gemini 3 Pro 的 76.2%；在终端操作能力测试 Terminal-Bench 2.0 中，以 58.1% 的准确率超越 Gemini 3 Pro 的 54.2%；而在竞争激烈的编码 Elo 基准测试 LiveCodeBench Pro 中，该模型与 Gemini 3 Pro 均获得 2439 分，持平的成绩印证了其强劲的综合编码能力。即便对比 Gemini 3 Pro 的高级配置版本（Deep Thinking 模型），GPT-5.1-Codex-Max 在智能体编程基准测试中仍保持微弱优势。

相较于前代模型 GPT-5.1-Codex，GPT-5.1-Codex-Max 在多项标准软件工程基准测试中均实现可量化提升：在 SWE-Lancer IC SWE 测试中，准确率从 66.3% 大幅提升至 79.9%；在包含 500 个案例的 SWE-Bench Verified 测试中（超高推理强度），准确率从 73.7% 提升至 77.9%；Terminal Bench 2.0 测试（89 个案例）中，准确率从 52.8% 小幅提升至 58.1%。所有测试均开启 “压缩机制” 与 “超高推理强度”，结果表明新模型在基准正确性与长时推理负载下的实际可用性上，均具备更高上限。

该模型最核心的技术突破在于引入 “压缩机制（Compaction）”，彻底解决了长时程编程任务中的上下文局限问题。传统大语言模型在接近上下文窗口限制时，易因信息过载导致性能下降，而 GPT-5.1-Codex-Max 的压缩机制能智能筛选关键上下文信息、丢弃无关细节，在跨越数百万 token 的连续工作中保持性能稳定，相当于为模型赋予 “长效记忆”。例如，在处理大型项目重构时，模型能持续追踪代码依赖关系、变量定义与修改记录，即便工作时长超过 24 小时，也不会遗漏关键逻辑。同时，压缩机制还显著提升 token 效率 —— 在中等推理强度下，完成同等精度或更优的任务时，GPT-5.1-Codex-Max 的 “思考 token” 用量比前代减少约 30%，这不仅降低了开发成本，还缩短了响应延迟，让长时开发任务的流畅度大幅提升。

目前，GPT-5.1-Codex-Max 已集成到 OpenAI 旗下多个 Codex 开发环境，覆盖开发者常用的各类工具场景：包括 OpenAI 官方命令行工具 Codex CLI（@openai/codex，现已实时上线）、IDE 扩展工具（暂未提及具体第三方 IDE 集成，但支持基于官方工具构建的自定义扩展）、交互式编程环境（如用于演示 CartPole 强化学习训练可视化、Snell 定律光学模拟器等前端应用的开发环境），以及 OpenAI 内部工程师使用的代码审查工具。开发者可通过 Codex CLI 在终端环境中立即体验该模型，例如构建实时交互的 CartPole 策略梯度模拟器（可视化强化学习训练过程与神经元激活状态）、支持动态折射率光线追踪的 Snell 定律光学探索器，这些场景均体现了模型在实时推理中兼顾计算、可视化与代码实现的能力，实现 “开发 – 调试 – 可视化” 的闭环。不过，该模型暂未通过公共 API 开放，OpenAI 表示 API 访问功能 “即将上线”，且暂未明确是否会集成到第三方 IDE（除非基于 Codex CLI 或未来 API 构建）。

在安全性与合规性上，GPT-5.1-Codex-Max 虽未达到 OpenAI Preparedness Framework 中 “高风险” 能力阈值，却是目前该公司部署的最强大 cybersecurity 相关编程模型，支持自动化漏洞检测与修复，但默认运行于严格的沙盒环境，禁用网络访问，从根源上降低数据泄露与恶意操作风险。OpenAI 表示，目前未发现该模型被规模化恶意使用的情况，但已部署增强监控系统，包括异常行为路由与干扰机制；Codex 环境默认隔离于本地工作区，除非开发者主动开启更广泛访问权限，有效防范来自不可信内容的提示注入攻击。同时，OpenAI 强调该模型的定位是 “编码助手” 而非 “人类替代品”，会生成详细的终端日志、测试引用与工具调用输出，确保代码生成过程的透明度，便于开发者审查验证。

从实际应用与内部反馈来看，GPT-5.1-Codex-Max 已展现出对开发效率的显著提升 ——OpenAI 透露，其内部 95% 的工程师每周都会使用 Codex 系列工具，自采用该类模型以来，工程师平均提交的拉取请求（Pull Requests）数量提升约 70%，大幅加快了内部开发节奏。该模型还针对 Windows 环境进行专项优化，是首款原生支持 Windows 系统的 Codex 模型，能更好地适配 Windows 下的文件操作、命令执行逻辑，减少开发者在跨系统开发中的适配成本，例如在 Codex CLI 中读取、写入文件或运行命令时，所需人工审批步骤更少，交互更流畅。

展望未来，GPT-5.1-Codex-Max 的推出体现了 OpenAI 在智能体开发工具领域的战略深化 —— 通过强化上下文管理与压缩机制，让模型从 “处理代码片段” 升级为 “驾驭完整代码库”，为下一代 AI 辅助编程环境奠定基础。随着后续 API 开放与第三方工具集成的推进，该模型有望进一步渗透到企业级软件开发流程中，同时，OpenAI 对 “人类监督” 的强调，也为平衡模型自主性与开发安全性提供了重要指引，确保在提升效率的同时，守住软件开发的质量与安全底线。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/openai-tui-chu-gpt5-1codexmax-bian-cheng-mo-xing-yi-wan

Like (0)

王浩然作者

0 0

Tome 创始人放弃 2000 万用户爆款演示应用，打造 AI 原生 CRM 平台 Lightfield

Previous 2025年11月22日

Ai2 推出 Olmo 3 系列模型：以高效开源推理与定制化能力挑战 Qwen 与 Llama

Next 2025年11月22日

AI前沿

大规模削减云浪费：Akamai利用Kubernetes编排的AI代理节省70%成本

在当今这个生成式AI蓬勃发展的时代，云成本达到了前所未有的高度。然而，高昂的费用并非仅因为企业使用了更多的计算能力，而是因为使用效率低下。据预测，今年企业将在不必要的云支出上浪费高…

王浩然
2025年6月23日
000
AI前沿

超越 AI 编码：真正的生产力飞跃在于完全跳过代码

当前行业对 AI 辅助开发的关注多集中于 “速度提升”—— 从代码自动补全到生成完整代码库，讨论围绕更快的框架搭建、原型设计与代码生成展开，产品团队也为 “几分钟内将自然语言描述转…

王浩然
2025年12月14日
000
AI前沿

Cosmos 研究所启动资助计划和 AI 实验室

宇宙研究所(Cosmos Institute ) 是一家非营利性机构，其创始研究员包括 Anthropic 联合创始人杰克·克拉克 (Jack Clark) 和前国防部技术专家布伦…

王浩然
2024年9月5日
000
AI前沿

Pure Storage 与 Azure：助力企业打造 AI 就绪数据基础设施

当前众多企业正致力于更新基础设施以提升效率、控制成本，但过程中常受困于混合架构、遗留系统与 AI 新需求带来的矛盾。微软（Azure）与 Pure Storage 等存储及数据平台…

王浩然
2025年11月24日
000
AI前沿

超越投机执行：确定性 CPU 如何实现可预测的 AI 性能

聚焦 CPU 架构的革新方向 —— 确定性 CPU，探讨其如何突破传统投机执行的局限，为 AI 性能带来可预测性。过去三十多年来，现代 CPU 一直依赖投机执行技术来保持流水线的…

王浩然
2025年11月5日
000
AI前沿

谷歌与OpenAI：AI领域的新成本较量与生态系统对比

在人工智能（AI）领域，创新的步伐从未停歇。近期，OpenAI推出了强大的o3和o4-mini推理模型，以及GPT-4.1系列，而谷歌则迅速回应，发布了Gemini 2.5 Fla…

王浩然
2025年4月26日
000
AI前沿

微软宣布停用 AutoGen，推出全新 Agent Framework：实现智能体的统一构建与治理

在 AI 智能体（Agent）开发领域，框架的碎片化与企业级治理难题长期制约着技术落地 —— 不同智能体工具间兼容性不足、多场景协作逻辑混乱、生产环境中的安全与合规风险难以管控。2…

王浩然
2025年10月5日
000
AI前沿

解锁生成式 AI 潜力的关键：数据就绪度

麻省理工学院（MIT）近期研究指出，95% 的生成式 AI（GenAI）试点项目无法推进至实际生产阶段，这一结论引发广泛关注，也让企业高管对 GenAI 投资持谨慎态度，甚至有人认…

王浩然
2025年10月17日
000
AI前沿

xAI 凭借“Colossus”人工智能训练系统打破纪录

埃隆·马斯克的xAI推出了其破纪录的 AI 训练系统，被称为“Colossus”。马斯克透露，经过 122 天的准备，xAI 团队已成功将 Colossus 100k H100 …

点点
2024年9月4日
000
AI前沿

SandboxAQ发布革命性量子化学数据集催化材料研发进入AI加速时代‌

量子人工智能先驱企业SandboxAQ近日震撼发布AQCat25数据集，这项包含1100万次高精度量子化学计算成果的开放资源，正在重新定义催化剂与先进材料的研发范式。作为目前全球最…

王浩然
2025年9月13日
000
AI前沿

‌TikTok终止创作者市场，推出集成AI工具的TikTok One平台‌

短视频平台TikTok近期宣布，将正式终止其创作者市场业务，并推出一个更为全面、集成多种AI工具的新平台——TikTok One。这一变革旨在为用户提供更加丰富和高效的创作体验。 …

王浩然
2025年3月2日
000
谷歌推出Agentic AI Browse：Chrome浏览器迎来智能代理新时代‌

全球浏览器市场正经历自移动互联网革命以来最重大的技术升级——谷歌在2025年9月22日的开发者大会上正式发布集成Agentic AI技术的Chrome浏览器，这项被内部称为&#82…

王浩然
AI前沿 2025年9月19日
000
AI前沿

Spotify 的 Daniel Ek 创立的人体扫描 AI 健康初创公司 Neko Health 在伦敦开业

俗话说预防胜于治疗。如今，一家引人注目的初创公司将这一理念牢记在心——无论是字面意义上还是象征意义上——并且正在扩张。 Neko Health由 Spotify 的 Daniel …

王浩然
2024年9月4日
000
AI前沿

企业现在可以通过 Google Cloud 最先进的虚拟机运行实时数据

几个月前，Google Cloud推出了C4A，这是由其首款基于 Arm 的 CPU Axion 驱动的虚拟机 (VM) 实例。现在，作为这项工作的下一步，它推出了搭载Titani…

王浩然
2025年1月19日
000
AI前沿

Liquid AI推出Hyena Edge模型：重塑大型语言模型，赋能边缘设备‌

在人工智能领域，大型语言模型（LLMs）的发展如火如荼，但它们往往受限于庞大的计算需求和复杂的架构，难以在智能手机等边缘设备上高效运行。然而，这一局面即将被打破。Liquid AI…

王浩然
2025年4月26日
000
AI前沿

Apple Intelligence 的真正威力将在第三方应用中展现出来

Apple Intelligence 是 iPhone 制造商在 iOS 18 中推出的一套新的 AI 功能，它为应用程序的新使用方式奠定了基础。如今，过时的 App Store…

王浩然
2024年9月11日
000
AI前沿

苹果两颗自研芯片，将发布

苹果或自研Wi-Fi及5G芯片，减少对供应商依赖。据台湾行业刊物《电子时报》报道，传闻苹果自主研发的 Wi-Fi 芯片可能最早于明年在设备中首次亮相。报道援引苹果供应链内部人士…

点点
2024年9月20日
000
AI前沿

这家初创公司刚刚赢得五角大楼首份人工智能国防合同

美国国防部已将其首份生成式人工智能防御合同授予Jericho Security，标志着军事网络安全的战略转变。这份价值 180 万美元的小型企业技术转让 (STTR) 第二阶段合同…

王浩然
2024年11月6日
000
AI前沿

Meta发布Llama API，速度较OpenAI快18倍，与Cerebras合作实现每秒2600个令牌处理

Meta与Cerebras携手，推出超高速Llama API Meta今日宣布与Cerebras Systems达成合作，共同推出全新的Llama API，为开发者提供比传统GPU…

王浩然
2025年4月30日
000
AI前沿

企业AI进入代理时代：自主性必须受到治理的约束‌

人工智能在企业领域的应用正迎来一个关键的转折点。根据VentureBeat的最新研究报告，2025年全球企业AI市场规模预计将达到惊人的4870亿美元，年复合增长率维持在34.7%…

王浩然
2025年9月18日
000

发表回复

Please Login to Comment

OpenAI 推出 GPT-5.1-Codex-Max 编程模型，已完成 24 小时内部任务

相关推荐

发表回复