基准测试
-
阿里巴巴开源Qwen3-Thinking-2507模型:推理性能超越OpenAI与Gemini,领跑AI基准测试
阿里巴巴Qwen团队近期发布了四款开源生成式AI模型,其中Qwen3-235B-A22B-Thinking-2507(简称Qwen3-Thinking-2507)在多项关键基准测试…
-
腾讯推出全新基准测试工具,助力创意AI模型评估
在人工智能(AI)技术日新月异的今天,如何准确、高效地评估AI模型的性能成为了业界关注的焦点。近日,腾讯公司宣布推出了一款名为ArtifactsBench的全新基准测试工具,旨在解…
-
Mistral开源小型模型从3.1升级至3.2:升级背后的原因与影响
法国AI新星Mistral在AI技术领域的创新步伐从未停歇。继不久前宣布推出自主研发的AI优化云服务Mistral Compute后,该公司又迅速对其广受欢迎的240亿参数开源模型…
-
Google宣称Gemini 2.5 Pro预览版在编码性能上超越DeepSeek R1与Grok 3 Beta
近日,Google正式发布了其备受瞩目的大型语言模型Gemini 2.5 Pro的最新预览版。此次发布不仅标志着Gemini系列模型的又一次重大升级,更以其卓越的编码性能,向业界展…
-
Qwen推出2.5-Omni-3B模型,赋能消费级电脑与笔记本
在人工智能领域,阿里巴巴旗下的Qwen团队再次展现了其强大的技术实力与创新精神。继推出先进的Qwen3大型推理模型家族后,Qwen团队近日又发布了Qwen2.5-Omni-3B模型…
-
Liquid AI推出Hyena Edge模型:重塑大型语言模型,赋能边缘设备
在人工智能领域,大型语言模型(LLMs)的发展如火如荼,但它们往往受限于庞大的计算需求和复杂的架构,难以在智能手机等边缘设备上高效运行。然而,这一局面即将被打破。Liquid AI…
-
OpenAI的O3模型在基准测试中表现不及预期
在人工智能领域,每一次技术的飞跃都伴随着无数的期待与挑战。近日,OpenAI公司推出的O3模型在业界引起了广泛关注,但令人意外的是,该模型在某一基准测试中的得分远低于公司最初的预期…
-
新兴开源AI公司Deep Cogito发布首批模型,迅速登顶排行榜
2025年4月8日,位于旧金山的AI研究初创公司Deep Cogito正式亮相,推出了其首批产品——Cogito v1系列。这是一系列经过精细调优的开源大型语言模型(LLMs),基…
-
开源AI辩论:为什么选择性透明度构成严重威胁
在当今科技巨头纷纷宣称其AI产品开源的时代,“开源”这一曾经的内行术语已跃然成为公众视野中的热门词汇。然而,在这个AI技术发展的关键时期,任何公司的失误都可能让公众对AI的信任度倒…