
在AI领域持续火热的背景下,OpenAI宣布了一项重要更新,为其ChatGPT Pro订阅服务增添了新的亮点。这次更新将Operator——一个自主网页浏览和光标控制代理——从原先基于GPT-4o的多模态大型语言模型升级到了更强大的o3推理模型。这一变化不仅提升了ChatGPT Pro订阅的价值,也进一步展示了OpenAI在推动AI技术前沿方面的决心。
Operator的升级背景
Operator自2025年1月首次亮相以来,一直是OpenAI在自主代理领域的重要尝试。它旨在超越传统的聊天机器人界面,允许OpenAI的强大AI模型代表用户执行更多操作。Operator能够自主执行点击、滚动、输入等操作,以完成如预订晚餐、整理购物清单或购买活动门票等基于网页的任务。为了保障用户的安全、隐私和账户安全,Operator并未使用用户电脑或Mac上的现有浏览器,而是在云托管的虚拟浏览器中运行,用户可通过独立站点operator.chatgpt.com输入请求并实时观察代理执行任务。
o3模型带来的改进
此次升级到o3模型,为Operator带来了显著的性能提升。首先,在浏览器交互过程中,o3模型展现出了更高的持久性和准确性,意味着它能够更成功地完成用户任务,且需要更少的更正或重复操作。此外,用户的响应将更加清晰、结构化和全面,这得益于o3模型在理解和生成复杂文本方面的优势。
在对比评估中,o3模型相较于其前身表现出了明显的优势。人类偏好研究表明,用户更倾向于o3模型的风格、全面性和清晰度。在遵循指令和效率方面,o3模型也表现出色,尽管在事实正确性方面的表现与旧版本相对平衡。在第三方评估基准上,o3模型同样展现出了卓越的性能。例如,在衡量基于浏览器的任务完成情况的OSWorld基准上,o3模型获得了42.9分,而旧版本仅为38.1分。尽管OpenAI指出,由于自动评分系统的局限性,实际性能提升可能更接近20个百分点,但这一数据已足以证明o3模型的显著进步。
安全保障与责任部署
随着Operator升级至o3模型,OpenAI并未忽视安全保障的重要性。o3模型继承了早期版本的安全措施,并针对其作为自主代理系统的角色进行了进一步优化。OpenAI加强了针对有害任务执行、提示注入漏洞和用户意图误解的训练,以确保模型的安全性和可靠性。评估显示,新模型在执行敏感操作前确认的比例高达94%,在金融交易中的确认比例更是达到了100%。此外,OpenAI还降低了提示注入的易感性,并维持了在某些高风险网络交互(如电子邮件或金融平台)上的谨慎边界,可能要求用户通过“观察模式”进行监督或明确拒绝继续操作。
对企业技术决策者的意义
对于负责AI工程、编排、数据管理和IT安全的专业人士而言,升级后的Operator无疑是一个重要的工具升级。其改进的准确性和结构化输出将减少测试验证和故障排除的开销。在编排环境中,Operator提供了一个实用且可靠的工具,用于自动化复杂管道中的基于浏览器的组件。数据工程师可以更加自信地委托手动网络交互任务(如数据验证和抓取),从而腾出时间进行更高层次的优化工作。同时,安全专业人员也可以利用Operator的分层安全机制,在审计和事件响应演练中更安全地模拟用户行为。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-sheng-ji-operator-zhi-o3-zeng-qiang-chatgpt-pro-ding