香港大学开源OpenCUA框架：打造媲美OpenAI和Anthropic的计算机操作AI代理‌

王浩然 • 2025年8月26日上午10:00 • AI前沿 • 327 views

香港大学XLANG实验室联合多家研究机构近日发布了一项突破性成果——开源计算机使用代理（CUA）框架OpenCUA，该框架通过创新的数据采集方法和思维链增强训练，使开源模型在计算机操作任务上的表现首次逼近OpenAI和Anthropic等公司的专有模型。这项研究不仅提供了包含22,600个跨平台任务演示的AgentNet数据集，更开创性地将人类操作计算机的复杂行为转化为可规模化训练的AI代理系统，为打破大公司在AI自动化领域的垄断地位提供了关键技术基础设施。

当前计算机使用代理领域面临的核心矛盾在于：虽然这类能自主操作计算机完成网站导航、软件使用等任务的AI系统在企业自动化流程中展现出巨大潜力，但最先进的CUA技术均被封闭在商业公司的黑箱中。OpenCUA团队在论文中尖锐指出：”缺乏透明度既阻碍技术进步又引发安全隐患，研究界亟需真正开放的CUA框架来系统研究其能力边界与风险。”与此同时，开源社区长期受限于数据采集瓶颈——现有图形用户界面(GUI)数据集规模有限，且多数研究项目的方法描述含糊不清，导致结果难以复现。这种双重困境严重制约了通用CUA技术的发展，也阻碍了对其可扩展性和泛化能力的深入探索。

OpenCUA框架的革命性突破首先体现在其数据采集系统AgentNet Tool的设计上。这款后台运行的工具能同步记录操作者的屏幕视频、键鼠输入以及描述界面元素结构的无障碍访问树，形成包含完整环境信息的”状态-动作轨迹”。特别值得注意的是，研究团队为应对企业敏感数据问题，构建了多层隐私保护机制：操作者可完全审核自己生成的数据后再决定是否提交；数据发布前还需经过人工复核和AI模型的二次敏感信息扫描。这种设计使得该工具能够安全应用于处理客户财务数据等高度敏感的企业环境。通过全球协作，团队已建立起覆盖Windows、macOS和Ubuntu三大系统、涉及200余款应用和网站的AgentNet数据集，真实再现了人类在复杂计算环境中的行为模式。

训练方法上，OpenCUA突破了传统监督学习的局限，创造性地引入思维链(CoT)增强技术。研究人员发现，仅用原始操作数据训练视觉语言模型(VLM)收效甚微，而通过生成包含计划、记忆和反思的”内心独白”，将每个动作分解为屏幕观察、情境分析和可执行动作三个认知层级，能显著提升模型的任务理解深度。这种结构化推理框架具有极强的适应性，企业只需录制内部工具的操作演示，即可套用相同的”反射器-生成器”管道自动创建训练数据，无需手动编写复杂的推理轨迹。项目联合负责人王新元解释道：”自然语言推理对培养通用计算机使用基础模型的认知能力至关重要，这使AI代理能真正理解而不仅是模仿人类操作。”

性能测试结果验证了OpenCUA框架的卓越效能。基于该框架训练的32B参数模型OpenCUA-32B在OSWorld-Verified基准测试中创下开源模型的新纪录，不仅大幅超越基础模型表现，更在与GPT-4o和Anthropic顶尖专有模型的对比中展现出惊人竞争力。实验表明，该方法对不同架构（包括密集型和专家混合型）和规模的模型均具有普适提升效果，且训练出的代理展现出优异的跨任务、跨系统泛化能力。在企业最关注的实用场景中，如AWS EC2实例启动和MTurk标注参数配置等多步骤标准化流程上，OpenCUA代理已展现出可靠的自动化潜力。

这项研究对企业AI部署战略具有深远启示。随着OpenCUA代码、数据集和模型权重的全面开源，企业首次获得构建自主可控的AI工作流自动化工具的技术自主权。王新元描绘了两种未来工作模式：”离线自动化”模式下，AI代理凭借广泛的软件知识端到端完成任务；”在线协作”模式则实现人机实时互动，使AI成为真正的数字同事。这种转变将重塑知识工作范式——人类只需明确战略目标，操作层面的”如何实现”将交由日益成熟的AI代理处理。当然，要实现这一愿景仍需攻克安全性与可靠性挑战，避免代理操作引发系统设置误改等意外后果。

OpenCUA的诞生标志着开源AI社区在计算机使用代理领域取得关键突破，其多层隐私保护设计为企业在敏感环境中部署AI自动化提供了安全样板，而思维链增强训练方法则为解决AI系统”知其然不知其所以然”的顽疾开辟了新路径。随着该框架在业界的推广应用，我们或将见证人机协作模式从”人类操作工具”向”人类指导AI，AI操作工具”的历史性转变。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/xiang-gang-da-xue-kai-yuan-opencua-kuang-jia-da-zao-pi-mei

Like (0)

王浩然作者

0 0

‌MCP-Universe基准测试揭示GPT-5在现实世界任务编排中的局限性：过半企业级场景表现不及预期‌

Previous 2025年8月25日

AI写作的”破折号陷阱”：如何识别人工智能生成文本的典型特征‌

Next 2025年8月27日

AI前沿

Nabil Hannan，NetSPI 现场 CISO – 访谈系列

Nabil Hannan 是 NetSPI 的现场 CISO（首席信息安全官）。他领导公司的咨询业务，专注于帮助客户解决网络安全评估以及威胁和漏洞管理需求。他擅长构建和改进有效的软…

点点
2024年9月18日
000
AI前沿

NVIDIA GTC 2025：AI革命加速，技术创新引领未来‌

在人工智能（AI）领域，一场前所未有的革命正在加速进行。这场革命的核心驱动力是数十亿参数的推理模型，它们正推动着代理性AI和物理性AI的发展。NVIDIA创始人兼首席执行官黄仁勋在…

王浩然
2025年4月18日
000
AI前沿

令牌化（Tokenization）：引领数据安全新范式，平衡防护与业务价值

令牌化（Tokenization）技术正成为现代数据安全的核心支柱，尤其在 AI 大规模应用的背景下，其凭借 “保护敏感数据同时保留数据实用性” 的独特优势，解决了传统数据安全技术…

王浩然
2025年12月20日
000
AI前沿

欧洲 AI 主权：以选择、速度与务实构建智能未来

2025 年 10 月 9 日，Unite.AI 发布的《AI Sovereignty in Europe: Power of Choice, Pace, and Pragmati…

王浩然
2025年10月12日
000
AI前沿

Pegasystems 首席技术官 Don Schuerman – 访谈系列

Don Schuerman 是 Pegasystems 的首席技术官兼产品营销副总裁，负责 Pega 的平台和客户关系管理 (CRM) 应用程序。他拥有 20 年为财富 500 …

点点
2024年10月16日
000
AI前沿

告别AI蔓延焦虑：与其恐慌，不如学会与它共生

当一家北美物流企业的团队为了提升旺季配送预测效率，自发用上了从企业授权到个人账号的各类AI工具，并且很快拿到了亮眼的成果时，一场关于AI的“隐形扩张”已经悄然发生。这并非个例，而是…

王浩然
2026年2月13日
000
AI前沿

谷歌：监管壁垒下，欧盟 AI 应用落后中国

谷歌全球事务总裁肯特・沃克（Kent Walker）近日呼吁欧盟调整监管策略，以提升 AI 应用水平，应对日益激烈的国际竞争 —— 尤其是来自中国的竞争压力。在布鲁塞尔举行的 “竞…

王浩然
2025年10月6日
000
AI前沿

快攻人工智能：Databricks 如何帮助步行者队将机器学习成本削减 12,000X% 同时加快洞察速度

对于篮球运动来说，数据可能就是一切——但对于步行者体育和娱乐公司（PS&E）来说，有关球迷的数据同样有价值。然而，尽管印第安纳波利斯步行者队(NBA)、印第安…

王浩然
2025年2月12日
000
AI前沿

超大型开源 AI DeepSeek-V3 发布时表现超越 Llama 和 Qwen

中国人工智能初创公司 DeepSeek 以其创新的开源技术挑战领先的人工智能供应商而闻名，今天发布了一种新的超大模型：DeepSeek-V3。根据该公司的许可协议，新模型可通过H…

王浩然
2024年12月28日
000
AI前沿

Countly CEO Onur Alp Soner：数据所有权才是AI时代的核心竞争力

在AI技术重塑商业规则的当下，企业对数据的掌控力正在成为决定其竞争力的关键变量。Countly联合创始人兼CEO Onur Alp Soner在接受Unite.AI采访时，分享了他…

王浩然
2026年3月14日
000
AI前沿

微软的新 Magentic-One 系统指挥多个 AI 代理完成用户任务

希望部署多个 AI 代理的企业通常需要实施一个框架来管理它们。为此，微软研究人员最近推出了一种名为Magentic-One 的新型多智能体基础设施，该基础设施允许单个 AI 模…

王浩然
2024年11月10日
000
AI前沿

有没有想过拍广告？这家航空公司将利用人工智能的力量实现这一目标

你可以成为一部浪漫电影的主角，宣传一家航空公司和全球旅行，或者至少你的脸可以成为主角，这要感谢卡塔尔航空的新活动。该航空公司推出了一项新的人工智能冒险活动，将短片和深度伪造工具结合…

王浩然
2024年9月9日
000
AI前沿

微软重塑 Windows 系统，开启自主 AI 智能体时代

微软在年度 Ignite 大会上宣布对 Windows 操作系统进行根本性重构，旨在将其打造为全球首个 “智能体操作系统（Agentic OS）”。这一变革不仅为自主 AI 智能体…

王浩然
2025年11月21日
000
AI前沿

Cam Myers：用AI机器人重构服装制造，从缝到粘的工业革命

当快时尚的库存浪费、供应链脆弱性成为行业痼疾，当传统服装制造因软材料的复杂性难以实现自动化时，一位跨界背景的创业者看到了破局的可能。CreateMe创始人兼CEO Cam Myer…

王浩然
2026年2月23日
000
AI前沿

Aarki推出Encore：打造隐私优先的移动增长平台

在移动营销领域，随着用户对隐私保护的日益重视，如何在保障隐私的同时实现高效增长成为了行业关注的焦点。近日，Aarki公司正式推出了Encore平台，一个专为隐私优先时代设计的下一代…

王浩然
2025年5月13日
000
AI前沿

DeepSeek-V3.1-Terminus重磅发布：工具智能与语言纯净度的双重进化‌

2025年9月22日，中国AI新锐力量深度求索（DeepSeek）携其标志性的鲸鱼徽标再度亮相，正式推出大型语言模型DeepSeek-V3.1-Terminus。这是继两个月前V3…

王浩然
2025年9月24日
000
AI前沿

谷歌扩展人工智能虚拟试穿工具，将礼服也纳入其中

谷歌周四宣布，已扩展其基于人工智能的虚拟试穿工具以支持礼服，让用户可以虚拟穿着来自数百个品牌的数千件礼服，包括 Boden、Maje、Sandro、Simkhai 和 Staud。…

王浩然
2024年9月8日
000
AI前沿

Anthropic 发布 Claude Opus 4.5：性能突破与成本革新，重塑企业级 AI 应用格局

Anthropic 正式推出旗舰级大语言模型 Claude Opus 4.5，该模型不仅在编码性能、智能体（Agentic）工作流与企业生产力工具集成上实现重大突破，更以颠覆性定价…

王浩然
2025年11月29日
000
AI前沿

人工智能初创公司 Humanoid 推出通用人形机器人

这家总部位于英国的公司预计今年将生产出一款具有轮式和双足平台的人形机器人的模块化 alpha 原型英国人工智能和机器人初创公司 Humanoid 在一段新视频中发布了其通用人形机…

王浩然
2025年2月21日
000
AI前沿

Cradle 利用 7300 万美元新资金打造其蛋白质设计 AI 平台

利用人工智能加速生物技术发展正迅速成为标准做法，提供快速部署该技术服务的公司正在看到大量应用和新投资。Cradle就是其中之一，专注于蛋白质设计——它刚刚筹集了 7300 万美元来…

王浩然
2024年11月29日
000

发表回复

Please Login to Comment

香港大学开源OpenCUA框架：打造媲美OpenAI和Anthropic的计算机操作AI代理‌

相关推荐

发表回复