
过去一年,外界普遍认为人工智能正革新生产力,助力人们撰写邮件、生成代码、总结文档,但真实的 AI 使用场景与这种认知存在显著差异。OpenRouter 开展的一项数据驱动研究,通过分析超 100 万亿个 Token(涵盖 ChatGPT、Claude 等数十个大语言模型的数十亿次对话与交互),揭开了现实世界中 AI 使用的真实面貌,其发现颠覆了诸多关于 AI 革命的固有假设。
OpenRouter 作为多模型 AI 推理平台,可跨 60 余家提供商的 300 多个模型(包括 OpenAI、Anthropic 等闭源模型,以及 DeepSeek、Meta 的 LLaMA 等开源模型)路由请求。该平台超 50% 的使用量来自美国以外地区,服务全球数百万开发者,能全面反映不同地域、不同使用场景、不同用户类型下 AI 的实际部署情况。值得注意的是,研究仅分析了数十亿次交互的元数据,未获取对话实际文本,在保护用户隐私的同时,清晰呈现了用户的行为模式。
在开源 AI 模型领域,截至 2025 年末,其使用量已占据总使用量的约三分之一,且在重大模型发布后使用量会出现显著峰值。最令人意外的发现是,开源 AI 模型超半数的使用并非用于提升生产力,而是集中在角色扮演与创意 storytelling 领域。尽管科技高管们极力宣扬 AI 对商业的变革潜力,但用户却将大量时间投入到角色驱动对话、互动小说与游戏场景中。数据显示,超 50% 的开源模型交互属于此类,其规模远超编程辅助等生产力场景。报告指出,这一现象打破了 “大语言模型主要用于编写代码、邮件或总结文档” 的认知,实际上许多用户将这些模型视为陪伴工具或探索创意的载体。而且这种使用并非随意闲聊,数据显示 60% 的角色扮演 Token 集中在特定游戏场景与创意写作情境中,成为重塑 AI 企业产品思路的重要隐形需求。
编程领域则成为所有 AI 模型中增长最快的类别。2025 年初,编程相关查询仅占 AI 总使用量的 11%,到年末这一比例已激增至 50% 以上,反映出 AI 在软件开发领域的融合不断加深。编程任务的平均提示长度增长四倍,从约 1500 个 Token 增至 6000 多个,部分代码相关请求的 Token 数量甚至超过 20000 个,相当于将整个代码库输入 AI 模型进行分析。从场景来看,编程查询已成为 AI 生态中最长、最复杂的交互类型之一,开发者不再局限于获取简单代码片段,而是借助 AI 开展复杂调试、架构评审与多步骤问题解决。2025 年大部分时间里,Anthropic 的 Claude 系列模型在该领域占据主导地位,编程相关使用量占比超 60%,不过随着谷歌、OpenAI 及各类开源模型的发力,市场竞争正不断加剧。
中国 AI 模型的崛起是另一大重要发现。目前中国 AI 模型的全球使用占比约 30%,较 2025 年初 13% 的份额增长近两倍。DeepSeek、通义千问(阿里)、月之暗面(Moonshot AI)等品牌的模型迅速获得市场认可,仅 DeepSeek 在研究期间就处理了 14.37 万亿个 Token。这一变化标志着全球 AI 格局的根本性转变,西方企业不再拥有绝对主导权。语言使用方面,简体中文已成为全球第二大 AI 交互语言,占总使用量的 5%,仅次于占比 83% 的英语。亚洲地区的 AI 支出份额也从 13% 翻倍至 31%,新加坡成为仅次于美国的第二大 AI 使用国,展现出亚洲市场在全球 AI 领域日益增长的影响力。
研究还提出了定义 AI 下一发展阶段的关键概念 —— 智能体推理(Agentic Inference)。这意味着 AI 模型不再局限于回答单一问题,而是能够执行多步骤任务、调用外部工具,并在长时间对话中进行推理。2025 年初,归类为 “推理优化” 的 AI 交互占比几乎为零,到年末已超 50%,体现出 AI 从文本生成工具向具备自主规划与执行能力的智能体转变的根本趋势。研究人员解释,如今大语言模型的典型请求不再是简单问题或孤立指令,而是结构化的智能体式循环,涉及调用外部工具、基于状态推理以及在更长上下文内持续交互。例如,用户不再让 AI “编写一个函数”,而是要求其 “调试该代码库、识别性能瓶颈并实施解决方案”,而 AI 已具备完成这类复杂任务的能力。
在用户留存方面,研究发现了 “水晶鞋效应(Glass Slipper Effect)”—— 率先完美解决用户关键问题的 AI 模型,能建立持久的用户忠诚度。当新发布的模型恰好满足此前未被满足的需求(即 “穿上水晶鞋”),早期用户的留存率会远高于后期使用者。以 2025 年 6 月谷歌 Gemini 2.5 Pro 的用户群体为例,其在第五个月的留存率约为 40%,显著高于后续用户群体。这一现象挑战了 AI 竞争的传统认知:先发优势固然重要,但 “率先解决高价值问题” 才能形成持久竞争力。用户会将这类模型融入自身工作流,无论是技术层面还是行为层面,更换模型的成本都较高。
出人意料的是,研究显示 AI 使用具有较强的价格非弹性。价格下降 10%,使用量仅增长 0.5%-0.7%。Anthropic、OpenAI 等品牌的高端模型,尽管每百万 Token 定价在 2-35 美元,仍保持较高使用量;而 DeepSeek、谷歌 Gemini Flash 等经济型模型,以每百万 Token 低于 0.4 美元的价格也实现了相近的规模,两类模型在市场中成功共存。报告指出,大语言模型市场目前尚未呈现大宗商品特征,用户会综合权衡成本与推理质量、可靠性及功能广度,说明质量、可靠性与功能仍能支撑溢价,AI 领域尚未陷入单纯的价格战。
OpenRouter 的研究描绘出的真实 AI 使用图景,比行业叙事更为复杂多元。AI 确实在改变编程与专业工作,但也通过角色扮演与创意应用,催生了全新的人机交互类别;全球 AI 市场在地域上不断多元化,中国已成为重要力量;技术正从简单文本生成向复杂多步骤推理演进;用户忠诚度的核心不再是 “率先进入市场”,而是 “率先真正解决问题”。正如报告所强调,人们使用大语言模型的方式往往与预期不符,且在不同国家、不同场景下差异显著。随着 AI 进一步融入日常生活,理解这些真实使用模式 —— 而非仅关注基准测试分数或营销宣传 —— 至关重要。该研究有助于缩小 “我们认为的 AI 使用方式” 与 “实际使用方式” 之间的差距,为行业发展提供更务实的参考。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ren-men-jiu-jing-ru-he-shi-yong-ai-ji-yu-shu-shi-yi-ci-jiao