基准测试

AI前沿

‌MCP-Universe基准测试揭示GPT-5在现实世界任务编排中的局限性：过半企业级场景表现不及预期‌

Salesforce AI研究院最新发布的开源基准测试MCP-Universe对当前主流大语言模型进行了全面评估，结果显示即使是OpenAI最新发布的GPT-5，在模拟企业真实工作…

王浩然
2025年8月25日
000
AI前沿

Anthropic发布Claude Opus 4.1：以突破性编码能力重塑AI竞赛格局‌

人工智能领域迎来重大技术突破，Anthropic公司最新发布的Claude Opus 4.1模型在多项编程基准测试中展现出碾压级表现。这一里程碑式进展不仅重新定义了代码生成AI的能…

王浩然
2025年8月16日
000
AI前沿

阿里巴巴开源Qwen3-Thinking-2507模型：推理性能超越OpenAI与Gemini，领跑AI基准测试

阿里巴巴Qwen团队近期发布了四款开源生成式AI模型，其中Qwen3-235B-A22B-Thinking-2507（简称Qwen3-Thinking-2507）在多项关键基准测试…

王浩然
2025年7月28日
000
AI前沿

腾讯推出全新基准测试工具，助力创意AI模型评估

在人工智能（AI）技术日新月异的今天，如何准确、高效地评估AI模型的性能成为了业界关注的焦点。近日，腾讯公司宣布推出了一款名为ArtifactsBench的全新基准测试工具，旨在解…

王浩然
2025年7月10日
000
AI前沿

Mistral开源小型模型从3.1升级至3.2：升级背后的原因与影响‌

法国AI新星Mistral在AI技术领域的创新步伐从未停歇。继不久前宣布推出自主研发的AI优化云服务Mistral Compute后，该公司又迅速对其广受欢迎的240亿参数开源模型…

王浩然
2025年6月24日
000
AI前沿

Google宣称Gemini 2.5 Pro预览版在编码性能上超越DeepSeek R1与Grok 3 Beta‌

近日，Google正式发布了其备受瞩目的大型语言模型Gemini 2.5 Pro的最新预览版。此次发布不仅标志着Gemini系列模型的又一次重大升级，更以其卓越的编码性能，向业界展…

王浩然
2025年6月7日
000
AI前沿

Qwen推出2.5-Omni-3B模型，赋能消费级电脑与笔记本

在人工智能领域，阿里巴巴旗下的Qwen团队再次展现了其强大的技术实力与创新精神。继推出先进的Qwen3大型推理模型家族后，Qwen团队近日又发布了Qwen2.5-Omni-3B模型…

王浩然
2025年5月6日
000
AI前沿

Liquid AI推出Hyena Edge模型：重塑大型语言模型，赋能边缘设备‌

在人工智能领域，大型语言模型（LLMs）的发展如火如荼，但它们往往受限于庞大的计算需求和复杂的架构，难以在智能手机等边缘设备上高效运行。然而，这一局面即将被打破。Liquid AI…

王浩然
2025年4月26日
000
AI前沿

OpenAI的O3模型在基准测试中表现不及预期‌

在人工智能领域，每一次技术的飞跃都伴随着无数的期待与挑战。近日，OpenAI公司推出的O3模型在业界引起了广泛关注，但令人意外的是，该模型在某一基准测试中的得分远低于公司最初的预期…

王浩然
2025年4月21日
000
AI前沿

新兴开源AI公司Deep Cogito发布首批模型，迅速登顶排行榜‌

2025年4月8日，位于旧金山的AI研究初创公司Deep Cogito正式亮相，推出了其首批产品——Cogito v1系列。这是一系列经过精细调优的开源大型语言模型（LLMs），基…

王浩然
2025年4月10日
000