腾讯推出全新基准测试工具，助力创意AI模型评估

王浩然 • 2025年7月10日下午4:00 • AI前沿 • 309 views

在人工智能（AI）技术日新月异的今天，如何准确、高效地评估AI模型的性能成为了业界关注的焦点。近日，腾讯公司宣布推出了一款名为ArtifactsBench的全新基准测试工具，旨在解决当前创意AI模型测试中存在的诸多问题，为AI技术的进一步发展提供有力支持。

一、ArtifactsBench的诞生背景

在AI模型的开发过程中，功能正确性一直是测试的核心标准。然而，随着AI技术在各个领域的广泛应用，用户对于AI产品的体验要求也越来越高。一个简单的网页或图表，除了需要功能正常外，还需要具备良好的用户体验，包括界面布局合理、颜色搭配和谐、动画效果流畅等。然而，传统的AI模型测试方法往往只关注功能正确性，而忽视了这些用户体验方面的细节，导致在实际应用中经常出现用户体验不佳的情况。

为了解决这一问题，腾讯公司经过深入研究，推出了ArtifactsBench这一全新的基准测试工具。该工具不仅关注AI模型的功能正确性，还着重评估其用户体验和美学质量，从而更全面地反映AI模型的实际性能。

二、ArtifactsBench的工作原理

ArtifactsBench的工作原理可以概括为“任务执行-自动化评估-多模态LLM判决”三个步骤。

首先，ArtifactsBench会给AI模型分配一个来自超过1800个创意任务目录的挑战任务，这些任务涵盖了数据可视化、网页应用制作、交互式小游戏等多个领域。AI模型在接收到任务后，会生成相应的代码。

接下来，ArtifactsBench会自动构建并运行这些代码，在一个安全、隔离的环境中模拟实际应用场景。在代码运行过程中，ArtifactsBench会捕捉一系列截图，以记录应用程序的动态行为，包括动画效果、按钮点击后的状态变化等。

最后，ArtifactsBench会将所有证据——包括原始请求、AI生成的代码以及截图——提交给一个多模态大型语言模型（MLLM）进行判决。这个MLLM判决者会根据一个详细的、针对每个任务的检查清单，对结果进行十项不同指标的评分，包括功能正确性、用户体验和美学质量等。这种评分方式确保了评估的公平性、一致性和全面性。

三、ArtifactsBench的实际应用效果

在与WebDev Arena这一由真实人类投票评选AI创作的黄金标准平台进行对比时，ArtifactsBench的排名结果与其保持了94.4%的一致性，这一数字远超过去旧有的自动化基准测试工具（仅约69.4%的一致性）。此外，ArtifactsBench的评估结果与专业人类开发者的判断也保持了超过90%的一致性，这进一步证明了其评估结果的准确性和可靠性。

在腾讯对全球30多个顶级AI模型进行的测试中，ArtifactsBench也展现出了其强大的评估能力。虽然谷歌的Gemini-2.5-Pro和Anthropic的Claude 4.0-Sonnet等商业化模型在测试中领先，但ArtifactsBench也揭示了一个有趣的现象：专注于编写代码的AI模型并不一定在这些创意任务中表现最佳。相反，一些通用型模型，如Qwen-2.5-Instruct，在实际应用中往往能够展现出更强的整体能力。

四、ArtifactsBench的意义与影响

ArtifactsBench的推出，不仅为AI模型的测试提供了一个全新的、更全面的评估标准，也为AI技术的发展注入了新的活力。通过ArtifactsBench的评估，开发者可以更加准确地了解AI模型在实际应用中的性能表现，从而有针对性地进行优化和改进。同时，ArtifactsBench的出现也推动了AI测试技术的发展和创新，为AI技术的进一步突破提供了有力支持。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/teng-xun-tui-chu-quan-xin-ji-zhun-ce-shi-gong-ju-zhu-li

AI技术发展 ArtifactsBench 创意AI模型基准测试多模态LLM 用户体验美学质量腾讯自动化评估通用型模型

Like (0)

王浩然作者

0 0

苹果痛失AI领军人物，其转投Meta引发热议

Previous 2025年7月10日

欧盟坚定推进AI立法进程，无视业界延期呼吁

Next 2025年7月10日

AI前沿

ISO 42001 认证：筑牢 AI 治理信任基石，驱动负责任创新

在人工智能以前所未有的速度重塑现代商业模式的背景下，企业对 AI 的依赖日益加深 —— 从依托 AI 获取更快洞察、提升运营效率，到借助 AI 构建竞争优势，AI 已成为企业发展的…

王浩然
2025年10月25日
000
AI前沿

ChatGPT 登陆 Windows

ChatGPT 现已在 Windows 上推出。今天，OpenAI宣布已开始预览其 AI 聊天机器人平台ChatGPT的专用 Windows 应用程序。 OpenAI 表示，该应…

点点
2024年10月18日
000
AI前沿

法国Mistral公司推出新型代码嵌入模型，在现实世界检索任务中超越OpenAI和Cohere‌

在人工智能领域，随着企业对代码检索增强生成（RAG）需求的日益增长，各大模型提供商纷纷推出了自己的嵌入模型以满足市场需求。近日，法国AI公司Mistral凭借其最新的Codestr…

王浩然
2025年5月29日
000
AI前沿

LLM新技术：控制CoT长度，优化推理，降低成本

一、引言在人工智能领域，大型语言模型（LLM）通过“链式思考”（Chain of Thought，简称CoT）进行推理已成为最新一代模型的关键特征。这种推理过程涉及将复杂问题分解…

王浩然
2025年3月17日
000
AI前沿

Slack 正在成为人工智能工作场所：这对你的工作意味着什么

这款让数百万办公室工作人员分享表情包、协调项目的消息应用程序正在悄然转变为一个更具雄心壮志的目标：一个让人工智能代理作为数字同事与人类一起工作的平台。作为 Salesforce …

王浩然
2024年12月21日
000
AI前沿

AI 优先即安全优先

给孩子买一辆崭新的自行车，吸引所有人目光的总会是自行车本身，而非配套的闪亮头盔。但父母们深知头盔的重要性。如今，我们很多人对待人工智能的态度，恐怕和这孩子没什么两样。我们沉迷于它的…

王浩然
2025年12月20日
000
AI前沿

Image Playground、ChatGPT 和更多 Apple Intelligence 功能已推出测试版

苹果周三发布了其顶级操作系统的最新开发者测试版，包括 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2。这些版本比 iOS 18.1、iPadOS…

王浩然
2024年10月25日
000
AI前沿

华为智能体 AI 系统：从自主决策到千行万业的价值重塑

在安徽海螺集团的水泥生产车间，一套基于华为基础设施构建的智能体 AI 系统正展现出惊人的自主决策能力 —— 它能以 90% 以上的准确率预测水泥熟料强度，并自动调整煅烧参数，将标准…

王浩然
2025年10月16日
000
AI前沿

自动驾驶初创公司Pronto AI收购越野自动驾驶竞争对手SafeAI‌

在人工智能、自动驾驶和采矿领域都略懂一二的工程师群体其实并不多见。Pronto公司的CEO安东尼·莱万多夫斯基希望能尽可能多地招揽这些人才。而最近的一次收购正帮助他实现这一目标。 …

王浩然
2025年7月19日
000
AI前沿

Aethir推出Web3 AI开发领域的AI解耦产业联盟‌

在近日的一次重大宣布中，Aethir公司引领了一场技术革命，正式推出了针对Web3 AI开发领域的AI解耦产业联盟。这一举措不仅展示了Aethir在AI技术前沿的深厚积累，更彰显了…

王浩然
2025年4月22日
000
AI前沿

Qodo与Google Cloud强强联手：为开发者平台内免费提供AI代码审查工具

在软件开发领域，随着人工智能（AI）技术的不断演进，AI生成的代码正逐渐成为开发流程中的重要一环。然而，如何确保这些由AI快速生成的代码的质量和可靠性，成为了开发者们面临的一大挑战…

王浩然
2025年6月21日
000
AI前沿

任正非论道中国AI未来：华为的长远布局‌

在科技日新月异的今天，人工智能（AI）已成为推动社会进步与产业升级的关键力量。作为全球科技巨头，华为在AI领域的布局与动向一直备受瞩目。近日，华为创始人任正非就中国AI的未来及华为…

王浩然
2025年6月19日
000
AI前沿

从幻觉到硬件：一个计算机视觉项目曲折历程中的教训‌

在计算机视觉领域，理论与实践之间往往存在着难以逾越的鸿沟。一个旨在通过照片识别笔记本电脑物理损伤的项目，便深刻体现了这一点。该项目起初看似简单明了：构建一个模型，使其能够观察笔记本…

王浩然
2025年7月7日
000
AI前沿

NVIDIA 计划向 AI 编程初创公司 Poolside 追加至多 10 亿美元投资

芯片巨头 NVIDIA 宣布了一项重大投资计划 —— 将向 AI 编程初创公司 Poolside 追加投资，此次投资最高可达 10 亿美元，且将作为 Poolside 新一轮 20…

王浩然
2025年11月3日
000
AI前沿

AI伴侣：人们的实际需求远低于预期

在当今社会，人工智能（AI）技术的快速发展让我们对其在各个领域的应用充满了期待，尤其是在情感陪伴方面。然而，一项由Anthropic公司发布的最新报告却揭示了一个出人意料的真相：人…

王浩然
2025年7月1日
000
AI前沿

Anthropic律师因Claude AI错误引用法律条文致歉

在人工智能（AI）技术日新月异的今天，AI工具在各行各业的应用愈发广泛，但与此同时，由AI引发的各类问题也层出不穷。近日，一家专注于AI技术研发的公司——Anthropic，就遭遇…

王浩然
2025年5月18日
000
AI前沿

.world 域名正在帮助品牌挖掘未来的互动潜力

元宇宙的终极愿景——一个横跨多个平台、连接物理世界和虚拟世界的沉浸式环境、点对点互动、交易、用户生成内容和世界构建——可能尚未完全实现。但它已经引导了消费者的期望，并激励各种规模的…

王浩然
2024年12月4日
000
AI前沿

DeepSeek：全面了解这款AI聊天机器人应用‌

在人工智能领域，一款名为DeepSeek的聊天机器人应用正逐渐崭露头角。这款应用凭借其强大的AI技术和出色的用户体验，吸引了众多用户的关注。 DeepSeek的核心优势在于其先进的…

王浩然
2025年3月10日
000
AI前沿

Perplexity推出大规模搜索API挑战谷歌霸主地位：AI搜索领域的新变革‌

在搜索引擎市场竞争日益激烈的当下，AI初创公司Perplexity宣布推出其革命性的大规模搜索API，这一举措被业界视为直接挑战谷歌搜索霸主地位的重要里程碑。该API基于Perpl…

王浩然
2025年9月28日
000
AI前沿

Stampli 的认知人工智能旨在自主处理您企业的所有采购订单

应付账款 (AP) 自动化初创公司Stampli在拉斯维加斯举行的 Oracle NetSuite 年度 SuiteWorld 2024大会上推出了其最新创新——认知 AI 。该…

王浩然
2024年9月17日
000