OpenAI发布o3和o4-mini：能“用图像思考”并自主使用工具的AI模型

王浩然 • 2025年4月18日上午11:00 • AI前沿 • 400 views

OpenAI近日宣布推出两款具有革命性意义的AI模型——o3和o4-mini，这些模型不仅能够通过图像进行推理，还能自主使用各种工具，标志着人工智能能力的一大步飞跃。这两款模型是OpenAI“o系列”推理模型的最新成员，据称是其迄今为止最智能、功能最强大的模型。

图像推理：AI的“视觉思维”

o3和o4-mini最引人注目的特性是它们能够“用图像思考”。这意味着这些模型不仅能看到图像，还能在解决问题的过程中操纵和推理图像。OpenAI在一份声明中表示：“它们不仅仅看到图像，而是用图像进行思考。这解锁了一种新的问题解决方式，融合了视觉和文本推理。”

在一次新闻发布会上，研究人员展示了o3如何分析一张十年前的物理实习海报，独立导航其复杂的图表，甚至识别出海报中缺失的最终结果。OpenAI的多模态推理研究员Brandon McKenzie在演示中说：“它必须在几秒钟内阅读了至少10篇不同的论文，而这项任务对我来说可能需要很多天。”

这种AI在推理过程中操纵图像的能力——如放大细节、旋转图表或裁剪不必要的元素——据行业分析师称，可能从科学研究到教育等多个领域带来革命性的变化。

自主工具使用：完整的AI系统

OpenAI强调，o3和o4-mini的发布不仅仅是模型上的改进，它们还是能够独立使用和串联多个工具解决问题的完整AI系统。公司解释说：“我们通过强化学习训练它们使用工具，不仅教它们如何使用工具，还教它们何时使用工具。”

OpenAI总裁Greg Brockman强调了这些模型广泛的工具使用能力：“在尝试解决一个难题时，它们实际上会在思考过程中使用这些工具。例如，我们曾看到o3连续使用600次工具调用来解决一个非常困难的任务。”

这种能力允许模型执行复杂的多步骤工作流程，而无需持续的人工指导。例如，当被问及加利福尼亚未来的能源使用模式时，AI可以搜索公用事业数据、编写Python代码进行分析、生成可视化图表，并制作一份综合报告——所有这些都在一个流畅的过程中完成。

性能突破：AI基准测试的新纪录

OpenAI声称o3在多个关键AI能力衡量标准上设定了新的最先进水平，包括Codeforces、SWE-bench和MMMU。在外部专家的评估中，o3在困难的真实世界任务上比其前身少犯了20%的重大错误。

较小的o4-mini模型在保持强大推理能力的同时，优化了速度和成本效率。在2025年AIME数学竞赛中，当获得Python解释器访问权限时，o4-mini的得分高达99.5%。

软件工程的变革

o3和o4-mini在软件工程领域表现出色。Brockman在新闻发布会上指出，o3在“导航我们的OpenAI代码库方面甚至比我做得更好，这非常有用。”作为发布的一部分，OpenAI还推出了Codex CLI，一个直接在用户终端中运行的轻量级编码代理。这个开源工具允许开发人员利用模型的推理能力进行编码任务，支持截图和草图。

安全协议：防止AI滥用

OpenAI报告称，对新模型进行了广泛的安全测试，特别关注它们拒绝有害请求的能力。公司的安全措施包括完全重建其安全培训数据，并开发系统级缓解措施来标记危险提示。

访问与部署

新款模型立即向ChatGPT Plus、Pro和Team用户提供，企业和教育客户将在下周获得访问权限。免费用户可以通过在作曲器中选择“思考”来体验o4-mini。开发人员可以通过OpenAI的Chat Completions API和Responses API访问这两款模型，但某些组织可能需要验证才能访问。

未来展望

行业分析师认为，这些发布反映了AI能力的更广泛融合，模型越来越将专业推理与自然对话能力和工具使用相结合。OpenAI在发布中指出：“今天的更新反映了我们模型的发展方向：我们正在将o系列的专门推理能力与GPT系列的更多自然对话能力和工具使用相结合。”

随着Google、Anthropic等公司发布越来越强大的模型，AI领域的竞争日益激烈。OpenAI通过同时关注推理能力和实用工具使用，展示了一种旨在保持其领导地位的策略，即提供智能和实用性。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/openai-fa-bu-o3-he-o4mini-neng-yong-tu-xiang-si-kao-bing-zi

Like (0)

王浩然作者

0 0

Claude AI助手功能大升级：Anthropic推出自主研究与Google Workspace集成‌

Previous 2025年4月18日

大型语言模型（LLM）切换并非即插即用：模型迁移的隐性成本剖析

Next 2025年4月18日

AI前沿

Anthropic与Google赢得重要用户：OpenAI支持的Harvey转投其怀抱

在人工智能（AI）领域，竞争与合作并存，技术的迭代与用户的抉择共同推动着行业的快速发展。近日，一款备受瞩目的法律AI工具——Harvey，宣布将采用Anthropic与Google…

王浩然
2025年5月17日
000
AI前沿

Perplexity 与 Snap 达成 4 亿美元合作，将 AI 搜索引入 Snapchat

AI 搜索领域的重要参与者 Perplexity AI 与社交平台 Snap 正式宣布达成一项规模达 4 亿美元的合作协议，计划自 2026 年初起，将 Perplexity 的 …

王浩然
2025年11月11日
000
AI前沿

并非 AI 发展停滞，而是你用错了评估标准

如今企业高管们开始对自身的 AI 路线图产生怀疑。2023 年生成式 AI 工具掀起热潮后，人们自然会疑惑这股发展势头是否已经放缓，但这种疑问其实是对 “AI 发展评分标准” 的误…

王浩然
2025年12月17日
000
AI前沿

解锁医疗保健的未来：探索 AI 环境临床语音和 AI 医疗文书员

医疗保健行业正在迅速进入技术驱动的新时代，而人工智能 (AI) 是其主要加速器。数据显示，75% 的医疗保健提供商和专业人士认为，未来三年内，人工智能相关技术将“普及”。虽然行业领…

点点
2024年9月10日
000
AI前沿

AI内容审查新前沿：从NSFW内容到名人姿势的生成式视频安全防护‌

在生成式AI技术快速发展的背景下，内容安全管控面临全新挑战。最新研究显示，传统基于文本和图像的内容过滤机制已无法应对视频生成领域的复杂风险，身体姿势和面部表情本身正成为AI安全管控…

王浩然
2025年8月17日
000
AI前沿

如何在不入侵任何东西的情况下窃取人工智能模型

人工智能模型的可窃取性令人惊讶——只要你设法嗅出模型的电磁特征。北卡罗来纳州立大学的研究人员在一篇新论文中描述了这种技术，尽管他们一再强调，事实上他们并不想帮助人们攻击神经网络。他…

王浩然
2024年12月29日
000
AI前沿

Raycast 与 AI 模型的深度融合：重塑电脑交互体验，机遇与挑战并存

2025 年 11 月 30 日，《The Vergecast》播客推出系列节目首集，聚焦开发者如何将 AI 整合到产品中，其中 Raycast 联合创始人兼 CEO 托马斯・保罗…

王浩然
2025年12月6日
000
AI前沿

OpenAI的ChatGPT用户激增至4亿，GPT-5即将面世‌

OpenAI的ChatGPT用户量已突破4亿周活跃用户大关，这一里程碑彰显了公司在消费者和企业市场的快速扩张。根据首席运营官Brad Lightcap周四在X平台上的帖子，Chat…

王浩然
2025年2月22日
000
AI前沿

轻量化革命：华为开源技术如何让大模型挣脱算力枷锁

在大语言模型（LLMs）席卷全球的当下，“参数规模即实力” 的认知一度主导行业发展，千亿甚至万亿参数的模型层出不穷。然而，这些 “AI 巨物” 背后是高昂的算力成本与严苛的硬件需求…

王浩然
2025年10月13日
000
AI前沿

Workday 收购人工智能文档平台 Evisort

Workday周二宣布，将收购人工智能合同管理平台Evisort ，收购金额未公开。 Workday集团总经理 Terrance Wampler 在一份声明中表示，Evisort …

王浩然
2024年9月19日
000
AI前沿

从意图到执行：微软如何将大型语言模型转变为行动导向型人工智能

大型语言模型 (LLM)改变了我们处理自然语言处理的方式。它们可以回答问题、编写代码和进行对话。然而，它们在处理实际任务时却力不从心。例如，LLM 可以指导您购买夹克，但不能为您下…

王浩然
2025年1月12日
000
AI前沿

YouTube 正在测试一项功能，允许选定的创作者使用人工智能混音歌曲

YouTube 去年开始允许美国的部分创作者使用 Charlie Puth、Charli XCX、Demi Lovato、John Legend、Sia、T-Pain 和 Troy…

王浩然
2024年11月14日
000
AI前沿

MOSEL：推进所有欧洲语言的语音数据收集

人工智能语言模型的发展在很大程度上以英语为主，而许多欧洲语言却没有得到充分重视。这导致人工智能技术在理解和响应不同语言和文化方面存在严重不平衡。MOSEL旨在通过为欧盟 24 种官…

点点
2024年10月8日
000
AI前沿

大地测量局：探索人工智能在地理空间技术中的作用和道德考量

随着我们即将迎来充满潜力的新年，技术领域，尤其是人工智能 (AI) 和机器学习 (ML)，即将迎来重大变革。英国国家测绘机构 Ordnance Survey (OS) 的首席技术官…

王浩然
2024年12月24日
000
AI前沿

金融领域的人工智能：重新定义金融服务的双刃剑

如今，只有懒人不会讨论人工智能 (AI) 及其彻底改变我们生活各个方面（包括金融）的潜力。事实上，人工智能市场正在呈现惊人的增长——2024 年市场规模超过1840 亿美元，比 2…

王浩然
2024年8月31日
000
AI前沿

英国与新加坡结盟，引领金融领域人工智能发展

在全球化与数字化浪潮交织的今天，国际间合作已成为推动技术革新与产业升级的关键力量。近期，英国与新加坡宣布结成战略联盟，旨在共同指导金融领域的人工智能（AI）应用与发展。这一举措不仅…

王浩然
2025年7月10日
000
AI前沿

Inflection AI 首席执行官表示已完成开发下一代 AI 模型的尝试

就在去年，Inflection AI 还是一家炙手可热的初创公司，它发布了一流的人工智能模型，声称其性能可以超越 OpenAI、Meta 和谷歌的技术。这与今天形成了鲜明的对比，I…

王浩然
2024年11月29日
000
AI前沿

Zara 的 AI 时尚摄影：标志着创意产业的重大变革

当快时尚巨头 Zara 正式宣布将人工智能（AI）全面应用于其全球产品目录与营销活动的时尚摄影中时，这一举措远非单纯的技术尝试，而是为整个创意产业投下了一颗 “变革石子”，其涟漪正…

王浩然
2025年12月31日
000
AI前沿

Qodo 的完全自主代理解决了回归测试的复杂性

在软件开发过程中，代码不断演变，需要不断测试其质量和可维护性。这是回归测试的根源，在回归测试中，现有测试会重新运行，以确保修改后的代码继续按预期运行。然而，回归测试可能非常耗时且…

王浩然
2024年12月5日
000
AI前沿

谷歌发布 Gemini 3：横扫多领域基准测试，引领 AI 向 “强执行力” 全面进化

谷歌正式推出新一代旗舰级大模型家族 Gemini 3，这是自 2023 年 Gemini 系列首次亮相以来，谷歌在人工智能领域最全面、最具突破性的一次产品发布。作为闭源专有模型，G…

王浩然
2025年11月21日
000