马斯克 xAI 推出 Grok 4.1：网页与应用端幻觉率大幅降低，暂不开放 API 访问

王浩然 • 2025年11月21日下午2:00 • AI前沿 • 483 views

埃隆・马斯克旗下的 AI 初创公司 xAI 在谷歌 Gemini 3 发布前夕，抢先推出新一代大语言模型 Grok 4.1，旨在分流谷歌的关注度。这款模型目前已在Grok.com、社交平台 X（原 Twitter）及 iOS、Android 移动应用上线，面向消费者开放使用，带来了架构与实用性的多重升级，包括更快的推理速度、提升的情感智能，以及显著降低的幻觉率，xAI 还同步发布了包含评估结果与部分训练流程的白皮书。

在公开基准测试中，Grok 4.1 表现亮眼，一跃登上排行榜前列，性能超越 Anthropic、OpenAI 及谷歌 Gemini 3 之前的版本（Gemini 2.5 Pro）。它延续了 xAI 此前 Grok 4 Fast（2025 年 9 月发布）的成功，但对企业开发者而言，存在一个关键限制：目前暂未通过 xAI 的公共 API 开放访问。尽管基准测试成绩优异，Grok 4.1 仍仅局限于 xAI 的消费端界面，官方未公布 API 开放的时间表。当前开发者可通过 xAI 开发者 API 调用的仅有旧版模型，包括 Grok 4 Fast（推理与非推理版本）、Grok 4 0709，以及 Grok 3、Grok 3 Mini、Grok 2 Vision 等 legacy 模型，这些模型支持最高 200 万 token 的上下文长度，token 定价根据配置不同介于 0.20 美元至 3.00 美元 / 百万 token 之间。这一现状使得依赖后端集成、微调智能体流水线或规模化内部工具的企业工作流，暂时无法利用 Grok 4.1 的能力，虽其消费端部署已使其成为 xAI 产品组合中性能最强的 LLM，但企业环境中的生产部署仍处于停滞状态。

从模型设计与部署策略来看，Grok 4.1 提供两种配置模式：一种是快速响应、低延迟模式，用于即时回复；另一种是 “思考” 模式（Thinking mode），在生成输出前会进行多步骤推理。两种版本均面向终端用户开放，可通过 xAI 应用中的模型选择器切换。它们的差异不仅体现在延迟上，还在于对提示词的处理深度：Grok 4.1 Thinking 模式会利用内部规划与斟酌机制，而标准版本则优先保障速度。尽管架构不同，但在盲选偏好测试与基准测试中，两者得分均高于所有竞争模型。

在人类与专家评估领域，Grok 4.1 表现突出。在 LMArena 文本竞技场排行榜上，Grok 4.1 Thinking 模式曾以 1483 的标准化 Elo 得分暂居榜首，但几小时后谷歌 Gemini 3 发布，以 1501 的 Elo 得分将其超越；即便如此，Grok 4.1 的非思考版本仍以 1465 的 Elo 得分取得不错成绩。这两项得分均高于谷歌 Gemini 2.5 Pro、Anthropic Claude 4.5 系列及 OpenAI GPT-4.5 预览版。创意写作方面，Grok 4.1 仅次于 Polaris Alpha（GPT-5.1 的早期变体），其 “思考” 模式在 Creative Writing v3 基准测试中获得 1721.9 分，较此前 Grok 系列迭代版本提升约 600 分。在汇集专业评审反馈的 Arena Expert 排行榜上，Grok 4.1 Thinking 模式再次领跑，得分 1501。尤其值得注意的是，Grok 4.1 距 Grok 4 Fast 发布仅两个月，如此短时间内的显著提升，凸显了 xAI 加速的开发节奏。

相较于前代模型，Grok 4.1 在技术层面实现了真实场景可用性的巨大飞跃。此前 Grok 4 中受限的视觉能力得到升级，如今可稳健处理图像与视频理解任务，包括图表分析与 OCR 级别的文本提取，多模态可靠性这一前代痛点得以解决。在保持推理深度的前提下，token 级延迟降低约 28%；长上下文任务中，Grok 4.1 在 100 万 token 长度下仍能保持输出连贯性，改善了 Grok 4 在超过 30 万 token 后性能下降的问题。xAI 还提升了模型的工具编排能力，Grok 4.1 如今可规划并并行执行多个外部工具，减少完成多步骤查询所需的交互周期，根据内部测试日志，部分此前需四步完成的研究任务，现在一步或两步即可完成。此外，模型在对齐方面也有改进，包括更好的事实校准（减少对政治敏感输出的回避或弱化倾向），以及语音模式下更自然、类人的韵律，支持多种说话风格与口音。

安全与对抗鲁棒性方面，作为风险管理框架的一部分，xAI 针对 Grok 4.1 的拒绝行为、抗幻觉能力、谄媚倾向及两用安全性（dual-use safety）进行了评估。非推理模式下，其幻觉率从 Grok 4 Fast 的 12.09% 降至仅 4.22%，降幅约 65%；在事实问答基准 FActScore 上，得分从早期版本的 9.89% 降至 2.97%。对抗鲁棒性测试中，Grok 4.1 经受了提示注入攻击、越狱提示及敏感化学与生物查询的考验，安全过滤器的假阴性率较低，尤其在受限化学知识（0.00%）与受限生物查询（0.03%）方面表现优异；在 MakeMeSay 等说服基准测试中，模型抵抗操纵的能力同样强劲，作为攻击方的成功率为 0%。

行业反响与后续方向上，Grok 4.1 的发布获得了公众与行业的热烈反馈，xAI 创始人埃隆・马斯克在社交平台简短认可，称其为 “出色的模型” 并祝贺团队，AI 基准测试平台也对其可用性与语言细微度的提升表示赞赏。但对企业客户而言，情况则较为复杂：Grok 4.1 在通用任务与创意任务上的性能突破值得肯定，但在 API 开放前，它仍只是一款面向消费者的产品，企业适用性有限。随着 OpenAI、谷歌、Anthropic 等竞争对手的模型持续迭代，xAI 下一步的战略举措可能取决于何时及如何向外部开发者开放 Grok 4.1 的访问权限。

结合补充信息来看，后续 xAI 还推出了 Grok 4.1 Fast 模型及智能体工具 xAI Agent Tools API，Grok 4.1 Fast 作为性能最佳的工具调用模型，支持 200 万 token 上下文窗口，在人工智能分析智能指数（AII）中升至第六位，τ²-Bench Telecom 排行榜上以 93.3% 得分登顶，以更低成本超越 GPT-5.1 (high)、Gemini 3 Pro 等模型，幻觉率较 Grok 4 Fast 降低一半，不过在经典编程案例中表现出现波动，如 “模拟旋转六边形内弹跳球” 任务中出现错误，而实时信息检索能力显著提升。情感智能方面，Grok 4.1 在 EQ-Bench 测试中以 1586 Elo 得分超越前代 100 余点，能更细腻地感知用户情绪，如对 “想念宠物” 的用户给出具同理心的回应；上下文窗口扩展至最高 256,000 token（Fast 模式下达 200 万 token），支持长文档协作与连贯对话。xAI 在训练中采用大规模强化学习基础设施，以前沿智能体推理模型作为奖励模型，实现自主评估与迭代，前期通过两周静默发布进行真实流量盲测，结果显示 64.78% 的用户更偏好 Grok 4.1。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ma-si-ke-xai-tui-chu-grok-4-1-wang-ye-yu-ying-yong-duan

Like (0)

王浩然作者

0 0

谷歌发布 Gemini 3：横扫多领域基准测试，引领 AI 向 “强执行力” 全面进化

Previous 2025年11月21日

Meta DreamGym 框架：在模拟世界训练 AI 智能体，大幅降低强化学习成本

Next 2025年11月21日

AI前沿

文学作品机器翻译的新方法

将《战争与和平》等文学经典翻译成其他语言往往会导致作者的独特风格和文化差异消失。解决文学翻译中这一长期存在的挑战对于保留作品精髓并让其在全球范围内传播至关重要。TransAgent…

点点
2024年10月4日
000
AI前沿

Notion 最大 AI 突破源自简化一切的缘由

在竞争激烈的数字化工具领域，Notion 凭借其独特的发展路径，在 AI 应用方面取得了重大突破。令人瞩目的是，Notion 最大的 AI 突破并非源于复杂高深的技术堆砌，而是得益…

王浩然
2026年1月3日
000
AI前沿

那个要挑战GPT的00后清华男孩｜WAVES

数月前，一张OpenAI内部的图片在网上流传。图中，OpenAI将自己通往AGI的道路分为了五个阶段： Level 1：聊天机器人，具有对话能力的AI。 Level 2：推理者，像…

点点
2024年9月20日
000
AI前沿

OpenAI 推出 Sora iOS 社交视频应用：深度伪造功能开启 AI 社交新场景，安全与隐私防护同步升级

OpenAI 于 2025 年 10 月 1 日正式发布新一代视频生成模型 Sora 2，并同步推出同名 iOS 社交视频应用（暂不支持安卓系统），该应用以 “深度伪造（Deepf…

王浩然
2025年10月8日
000
AI前沿

Midjourney的新研究：让大型语言模型更具创意地写作

在人工智能领域，创新总是层出不穷。近日，以AI图像生成为主的Midjourney公司携手纽约大学（NYU）的机器学习专家，发布了一项令人瞩目的新研究。这项研究专注于提升文本型大型语…

王浩然
2025年3月25日
000
AI前沿

谷歌发布为人工智能生成的文本添加水印的技术

谷歌正在推出 SynthID Text 技术，该技术可以让开发人员为生成式 AI 模型编写的文本添加水印并进行检测。 SynthID Text 可以从 AI 平台Hugging F…

王浩然
2024年10月25日
000
AI前沿

Automattic 为员工提供了另一次辞职机会——这次的遣散费为 9 个月

Automattic 首席执行官马特·穆伦维格 (Matt Mullenweg) 向有意离职的员工提供为期六个月的遣散费，几天后， 159 人接受了这一提议。10 月 16 日晚，…

王浩然
2024年10月24日
000
AI前沿

AI安全投入激增却难降风险：企业需从工具防护转向流程级安全架构

在全球AI投资热潮下，企业的AI安全预算正以远超AI系统部署的速度增长，但这种投入与防护效果的失衡，正让不少企业陷入“越投越不安全”的困境。2025年全球AI私人融资规模达到339…

王浩然
2026年3月28日
000
AI前沿

xAI 以每月价值 25 美元的 API 积分吸引开发者，并支持 OpenAI、Anthropic SDK

我们已经知道这一点有一段时间了，但现在我们可以确定的是：生成式人工智能竞赛对于开发人员来说就像对于最终用户来说一样是一场竞赛。举个例子：今天，埃隆·马斯克的 xAI（社交网络 X…

王浩然
2024年11月6日
000
AI前沿

AWS 为 Bedrock 带来多代理编排功能

AWS宣布在其 Amazon Bedrock 平台上推出多代理功能，加倍加大对 AI 代理的投入。 AWS 首席执行官马特·加曼 (Matt Garman) 在 AWS re:I…

王浩然
2024年12月4日
000
AI前沿

AI 芯片厂商 Cerebras 完成 11 亿美元融资，估值达 81 亿美元，加速挑战英伟达地位

2025 年 10 月 1 日，总部位于美国硅谷的 AI 芯片厂商 Cerebras Systems 宣布完成规模达 11 亿美元的 G 轮融资，公司估值由此攀升至 81 亿美元。…

王浩然
2025年10月9日
000
AI前沿

Atlassian以6.1亿美元收购浏览器公司：Arc与Dia将如何重塑企业AI办公生态‌

在企业软件巨头与AI浏览器新锐的这场战略联姻中，Atlassian斥资6.1亿美元现金收购The Browser Company的决策，揭示了生产力工具市场正在发生的深刻变革。这笔…

王浩然
2025年9月5日
000
AI前沿

Manus推出突破性”广域研究”功能：同时启动100+AI代理的并行研究新模式

新加坡AI初创公司Manus近期推出了一项名为”广域研究”(Wide Research)的创新功能，这项技术突破性地实现了同时启动100多个AI代理进行并行…

王浩然
2025年8月7日
000
AI前沿

AI 正撕裂企业：Writer AI 首席执行官痛批《财富》500 强领导者管理技术失当

Writer AI 联合创始人兼首席执行官梅・哈比卜（May Habib），于 2025 年 10 月 23 日在 TED AI 大会上发表了对企业 AI 应用现状的尖锐批评：近半…

王浩然
2025年10月27日
000
AI前沿

马斯克旗下Grok AI推出虚拟伴侣服务包含哥特动漫少女等个性化角色‌

埃隆·马斯克旗下的人工智能公司xAI近日为其聊天机器人Grok推出了一项颇具争议的新功能——AI虚拟伴侣。这项服务目前正处于早期测试阶段，为用户提供包括”哥特动漫少女&…

王浩然
2025年7月17日
000
AI前沿

无论你喜欢与否，人工智能正在学习如何影响你

当我还是个孩子的时候，我的生活中曾出现过四个人工智能特工。他们的名字分别是 Inky、Blinky、Pinky 和 Clyde，他们竭尽全力追捕我。那是 20 世纪 80 年代…

王浩然
2025年2月18日
000
AI前沿

Zip推出50款AI代理，旨在消除采购效率低下问题，OpenAI已率先加入‌

Zip，这家价值22亿美元的采购平台初创公司，近日在其首届AI峰会上宣布推出了一套包含50个专门化人工智能代理的系统。这些代理旨在自动化全球企业采购部门普遍面临的繁琐手工工作，据行…

王浩然
2025年6月11日
000
AI前沿

从硅基到感知：AI新前沿与人类认知迁移

在人类历史的长河中，技术的每一次飞跃都伴随着深刻的社会变迁。从工业革命到数字革命，每一次技术革命都促使人类在工作方式和思维方式上进行迁移。如今，随着人工智能（AI）技术的迅猛发展，…

王浩然
2025年5月12日
000
AI前沿

百度发布ERNIE X1 Turbo与4.5 Turbo：高性能与低成本的完美结合

在人工智能领域，模型性能与成本之间的平衡一直是行业关注的焦点。近日，百度宣布推出ERNIE X1 Turbo和4.5 Turbo两款新型AI模型，它们在保持高性能的同时，实现了显著…

王浩然
2025年5月2日
000
AI前沿

ACE 框架：以 “进化操作手册” 破解 AI 上下文崩溃难题，推动自改进智能体落地

斯坦福大学与 SambaNova 联合推出的智能体上下文工程（ACE）框架，通过 “生成 – 反思 – 整理” 的模块化协作模式，将 AI 上下文从 “静态…

王浩然
2025年10月19日
000

发表回复

Please Login to Comment

马斯克 xAI 推出 Grok 4.1：网页与应用端幻觉率大幅降低，暂不开放 API 访问

相关推荐

发表回复