OpenAI发布o3和o4-mini:能“用图像思考”并自主使用工具的AI模型

OpenAI发布o3和o4-mini:能“用图像思考”并自主使用工具的AI模型

OpenAI近日宣布推出两款具有革命性意义的AI模型——o3o4-mini,这些模型不仅能够通过图像进行推理,还能自主使用各种工具,标志着人工智能能力的一大步飞跃。这两款模型是OpenAI“o系列”推理模型的最新成员,据称是其迄今为止最智能、功能最强大的模型。

图像推理:AI的“视觉思维”

o3和o4-mini最引人注目的特性是它们能够“用图像思考”。这意味着这些模型不仅能看到图像,还能在解决问题的过程中操纵和推理图像。OpenAI在一份声明中表示:“它们不仅仅看到图像,而是用图像进行思考。这解锁了一种新的问题解决方式,融合了视觉和文本推理。”

在一次新闻发布会上,研究人员展示了o3如何分析一张十年前的物理实习海报,独立导航其复杂的图表,甚至识别出海报中缺失的最终结果。OpenAI的多模态推理研究员Brandon McKenzie在演示中说:“它必须在几秒钟内阅读了至少10篇不同的论文,而这项任务对我来说可能需要很多天。”

这种AI在推理过程中操纵图像的能力——如放大细节、旋转图表或裁剪不必要的元素——据行业分析师称,可能从科学研究到教育等多个领域带来革命性的变化。

自主工具使用:完整的AI系统

OpenAI强调,o3和o4-mini的发布不仅仅是模型上的改进,它们还是能够独立使用和串联多个工具解决问题的完整AI系统。公司解释说:“我们通过强化学习训练它们使用工具,不仅教它们如何使用工具,还教它们何时使用工具。”

OpenAI总裁Greg Brockman强调了这些模型广泛的工具使用能力:“在尝试解决一个难题时,它们实际上会在思考过程中使用这些工具。例如,我们曾看到o3连续使用600次工具调用来解决一个非常困难的任务。”

这种能力允许模型执行复杂的多步骤工作流程,而无需持续的人工指导。例如,当被问及加利福尼亚未来的能源使用模式时,AI可以搜索公用事业数据、编写Python代码进行分析、生成可视化图表,并制作一份综合报告——所有这些都在一个流畅的过程中完成。

性能突破:AI基准测试的新纪录

OpenAI声称o3在多个关键AI能力衡量标准上设定了新的最先进水平,包括Codeforces、SWE-bench和MMMU。在外部专家的评估中,o3在困难的真实世界任务上比其前身少犯了20%的重大错误。

较小的o4-mini模型在保持强大推理能力的同时,优化了速度和成本效率。在2025年AIME数学竞赛中,当获得Python解释器访问权限时,o4-mini的得分高达99.5%。

软件工程的变革

o3和o4-mini在软件工程领域表现出色。Brockman在新闻发布会上指出,o3在“导航我们的OpenAI代码库方面甚至比我做得更好,这非常有用。”作为发布的一部分,OpenAI还推出了Codex CLI,一个直接在用户终端中运行的轻量级编码代理。这个开源工具允许开发人员利用模型的推理能力进行编码任务,支持截图和草图。

安全协议:防止AI滥用

OpenAI报告称,对新模型进行了广泛的安全测试,特别关注它们拒绝有害请求的能力。公司的安全措施包括完全重建其安全培训数据,并开发系统级缓解措施来标记危险提示。

访问与部署

新款模型立即向ChatGPT Plus、Pro和Team用户提供,企业和教育客户将在下周获得访问权限。免费用户可以通过在作曲器中选择“思考”来体验o4-mini。开发人员可以通过OpenAI的Chat Completions API和Responses API访问这两款模型,但某些组织可能需要验证才能访问。

未来展望

行业分析师认为,这些发布反映了AI能力的更广泛融合,模型越来越将专业推理与自然对话能力和工具使用相结合。OpenAI在发布中指出:“今天的更新反映了我们模型的发展方向:我们正在将o系列的专门推理能力与GPT系列的更多自然对话能力和工具使用相结合。”

随着Google、Anthropic等公司发布越来越强大的模型,AI领域的竞争日益激烈。OpenAI通过同时关注推理能力和实用工具使用,展示了一种旨在保持其领导地位的策略,即提供智能和实用性。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-fa-bu-o3-he-o4mini-neng-yong-tu-xiang-si-kao-bing-zi

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年4月18日
Next 2025年4月18日

相关推荐

发表回复

Please Login to Comment