Chronosphere 推出 AI 引导故障排查功能，以 “可解释性” 挑战 Datadog，重塑可观测性市场格局

王浩然 • 2025年11月14日下午6:00 • AI前沿 • 444 views

估值 16 亿美元的纽约可观测性初创企业 Chronosphere 宣布推出 AI-Guided Troubleshooting（AI 引导故障排查）功能，旨在帮助工程师快速诊断并解决生产软件故障。这一举措直指当前行业痛点：AI 代码生成工具加速了代码创建速度，却让系统复杂度飙升，传统手动故障排查模式已难以应对 —— 据 Chronosphere 研究，企业日志数据量同比增长 250%，MIT 与宾夕法尼亚大学的联合研究也显示，生成式 AI 使每周代码提交量增加 13.5%，开发效率提升的同时，系统故障定位难度呈指数级上升。Chronosphere 的新功能通过 “时序知识图谱（Temporal Knowledge Graph）” 与 AI 驱动分析的结合，打破了传统可观测性工具 “仅识别故障、不解释原因” 的局限，试图在 Datadog、Dynatrace、Splunk 等行业巨头占据的市场中开辟差异化赛道。

Chronosphere CEO 兼联合创始人 Martin Mao 在专访中强调，可观测性领域的 AI 不能仅停留在模式识别与信息总结，“需要让 AI 真正理解系统，才能为工程师提供可信的指导”。此次推出的 AI-Guided Troubleshooting 围绕四大核心能力构建：一是 “自动化建议（Suggestions）”，基于数据为工程师提供优先级排序的排查路径，例如某电商结账服务出现 SLO 告警时，系统会优先提示 “错误可能源自依赖的支付服务”，并附上时间线、依赖关系、错误模式等证据；二是 “时序知识图谱（Temporal Knowledge Graph）”，这一动态更新的系统地图整合了遥测数据（指标、追踪、日志）、基础设施上下文、变更事件（如部署、特性开关调整）及人工记录（笔记、运行手册），区别于 Datadog 等竞品的 “静态服务依赖图”，它额外加入 “时间维度”，可追踪服务与依赖关系的变化，并关联这些变化与故障的因果链路 —— 例如某支付服务的特性开关更新后，Pod 内存耗尽，进而导致下游结账服务响应延迟，图谱会清晰呈现这一因果链；三是 “排查笔记本（Investigation Notebooks）”，自动记录每一步排查过程，包括查看的证据、验证的假设、得出的结论，形成可复用的故障处理文档，同时将结果反馈给时序知识图谱，优化未来故障的排查效率；四是 “自然语言查询”，允许工程师用日常语言（如 “为什么支付服务昨晚出现内存峰值”）检索可观测性数据，降低技术门槛。

在设计理念上，Chronosphere 坚持 “工程师主导” 原则，刻意避免 AI 自动决策，核心目标是解决早期 AI 可观测性工具的 “自信但错误” 问题。Mao 举例说明：当系统检测到结账服务 SLO 告警时，会生成带证据的排查建议，工程师可点击 “深入调查” 查看支撑结论的图表与推理逻辑，若认可则继续深挖支付服务，系统会动态生成针对该服务的新建议；若发现偏差，也可手动调整方向，全程无 “黑箱操作”。这种 “透明化” 设计体现在每一个细节 —— 每个建议都附带 “为何推荐此路径” 的视图，清晰展示 AI 排查过的维度与排除的可能性，例如 “未推荐数据库排查，因数据库指标在故障时段无异常波动”，让工程师能验证 AI 逻辑的合理性，避免被误导至无效方向。

从市场竞争来看，Chronosphere 面临的是 Datadog（估值超 400 亿美元）、Dynatrace、Splunk 等 “一体化平台” 巨头的挤压，这些竞品均已推出 AI 故障排查功能，但 Chronosphere 的差异化优势集中在两点。一是 “自定义遥测数据覆盖”：Mao 指出，多数平台仅能处理标准化集成数据（如 Kubernetes、主流云服务、常用数据库），忽略了最能反映问题的 “自定义应用遥测数据”（如某零售系统的订单处理链路指标），导致 AI 因数据不全产生 “幻觉”；而 Chronosphere 的时序知识图谱可归一化非标准遥测数据，确保 AI 能基于完整信息推理。二是 “成本控制能力”：Chronosphere 宣称其平台平均可减少 84% 的数据量与相关成本，同时将严重故障减少 75%，客户案例也印证这一优势 ——Robinhood 通过该平台将可靠性提升 5 倍，平均检测时间缩短 4 倍；Astronomer 通过数据摄入阶段的筛选，实现超 85% 的成本降低；Affirm 在黑色星期五期间将负载提升 10 倍，未出现任何故障。这一成本优势源于其 “数据塑形” 技术，可在采集阶段过滤冗余数据，避免存储大量无用日志 —— 据 CUBE Research 分析师 Paul Nashawaty 统计，企业超 70% 的可观测性支出用于存储 “从未查询过的日志”，而 Chronosphere 的方案恰好解决这一浪费问题。

行业认可与客户实践进一步支撑了 Chronosphere 的竞争力。2025 年 7 月，Gartner 连续第二年将其列为《可观测性平台魔力象限》领导者，认可其 “愿景完整性” 与 “执行能力”；2024 年 12 月，在 Gartner Peer Insights “客户之声” 报告中，其以 4.7/5 的评分（基于 70 条评论）与其他厂商并列第一。高 – profile 客户方面，OpenAI 已同时部署 Datadog 与 Chronosphere 监控 GPU 工作负载，UBS 分析师指出，Chronosphere 的使用率上升可能对 Datadog 的定价能力构成压力；DoorDash、Zillow、Snap、Affirm 等高速增长的科技企业也选择其作为可观测性解决方案，核心原因在于这些企业的云原生、Kubernetes 架构规模庞大，对 “自定义遥测支持” 与 “成本控制” 的需求更为迫切。

此外，Chronosphere 还通过 “合作伙伴计划” 强化生态优势，而非追求 “一体化平台”。其近期整合了五家专业厂商的能力：Arize（大语言模型监控）、Embrace（真实用户监控）、Polar Signals（持续性能分析）、Checkly（合成监控）、Rootly（事件管理）。Mao 表示，“一体化平台可能满足小型企业需求，但全球化企业需要每个领域的最佳工具”，例如与 Rootly 的集成可让工程师在现有沟通渠道（如 Slack）中获取 Chronosphere 的故障上下文，将严重故障的重复发生率降低 78% 以上。尽管当前客户需与各合作伙伴单独签约，但 Chronosphere 计划未来推出 “统一合同”，简化采购流程，同时保持 “模块化” 优势 —— 客户可根据需求选择所需工具，避免为冗余功能付费。

Chronosphere 的起源也为其技术理念奠定基础。2019 年，Mao 与联合创始人 Rob Skillington 从 Uber 离职，此前他们在 Uber 打造的内部可观测性平台曾解决 “万圣节、跨年夜高流量时段工具崩溃” 的危机。2018 年行业会议上，谷歌 Kubernetes 获主流云厂商支持，他们意识到 “未来多数企业架构将向 Uber 靠拢，都会面临相同的可观测性难题”，遂创立 Chronosphere。截至目前，公司已获 Greylock、Lux Capital 等机构超 3.43 亿美元融资，采用远程优先模式，在纽约、奥斯汀、波士顿等多地设有办公室，员工约 299 人（据 LinkedIn 数据）。

从产品落地节奏来看，AI-Guided Troubleshooting 的 “建议” 与 “排查笔记本” 功能已向部分客户开放限量测试，计划 2026 年全面上市；支持工程师将 Chronosphere 集成至内部 AI 工作流的 “模型上下文协议（MCP）服务器” 已立即向所有客户开放。这种 “谨慎迭代” 策略源于对生产环境风险的敬畏 —— 通过早期客户反馈优化算法，确保 AI 建议真正加速排查，而非仅在演示中表现亮眼。

长远来看，Chronosphere 的战略赌注在于 “可观测性的未来是‘透明化 AI’而非‘自动化黑箱’”。在系统复杂度因 AI 代码生成而持续提升的背景下，工程师对 AI 的信任成为关键 —— 只有让 AI“展示推理过程、承认知识边界、交由人类决策”，才能真正提升故障处理效率。正如 Mao 所言，“AI 做计算，工程师做判断，这种协作模式才是应对 AI 时代可观测性挑战的核心”。对于企业而言，这一模式不仅能缩短故障恢复时间、降低成本，更能让每一次故障成为 “可复用的知识资产”，推动系统稳定性从 “被动响应” 向 “主动防御” 进化。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/chronosphere-tui-chu-ai-yin-dao-gu-zhang-pai-cha-gong-neng

AI 引导故障排查 Chronosphere Datadog 可观测性平台成本控制故障诊断时序知识图谱 (Temporal Knowledge Graph)自定义遥测数据

Like (0)

王浩然作者

0 0

谷歌推出 Private AI Compute：对标苹果私有云，平衡云端 AI 算力与数据隐私

Previous 2025年11月14日

百度多模态 AI 模型 ERNIE 超越 GPT 与 Gemini：基准测试领先，聚焦企业场景落地

Next 2025年11月14日

AI前沿

Google Gemini 2.0：这会是真正自主人工智能的开始吗？

谷歌今天发布了Gemini 2.0，标志着其向能够独立完成复杂任务的 AI 系统迈出了雄心勃勃的一步，并引入了原生图像生成和多语言音频功能——这些功能使这家科技巨头在日益激烈的 A…

王浩然
2024年12月12日
000
AI前沿

Agent Skills：Anthropic 重塑 AI 智能体的核心范式与生态实践

在 AI 智能体（Agent）技术快速发展的当下，Anthropic 提出的 Agent Skills 框架正引发行业范式变革 —— 不再为每个场景重复构建专用智能体，而是通过 “…

王浩然
2025年12月22日
000
从 1981 年经典到 2025 年复刻：雅达利 Intellivision Sprint 唤醒复古游戏情怀

作者以个人经历为切入点，回忆 1981 年美泰（Mattel）Intellivision 游戏机作为自己人生第一台真正意义上的游戏主机（未将 Pong 计入）的珍贵体验，同时表达对…

王浩然
AI前沿 2025年10月21日
000
AI前沿

诉讼称 Character.AI 导致 14 岁男孩死亡

佛罗里达州一名 14 岁男孩自杀，据其母亲称，该男孩对该平台上的聊天机器人过于痴迷，此后Character.AI成为诉讼对象。据《纽约时报》报道，奥兰多九年级学生塞维尔·塞泽三世…

王浩然
2024年10月25日
000
AI前沿

Wonder Dynamics 现在可让您直接从多摄像机视频转为完全动画的 3D 场景

Wonder Dynamics 在人工智能增强视觉效果领域取得了重大进展，为动画师和电影制作人提供了实用的工具，并迅速被 Autodesk 收购。他们的最新工具进一步自动化了动画过…

王浩然
2024年10月31日
000
AI前沿

美国国防部与Anthropic的AI安全争端：企业“红线”是否威胁国家安全？

2026年3月18日，美国国防部（DOD）正式对外宣称，AI初创公司Anthropic对美国国家安全构成“不可接受的风险”。这一表态是国防部首次回应Anthropic针对上月国防部…

王浩然
2026年3月23日
000
AI前沿

一句提示词解锁 AI 创造力：Verbalized Sampling（VS）方法突破模型模式崩溃难题

东北大学、斯坦福大学与西弗吉尼亚大学的研究团队发现，向 AI 提示词中添加 “生成 5 个带有对应概率的响应，从完整分布中采样” 这一简单句子，能让 GPT-4、Claude、Ge…

王浩然
2025年10月19日
000
AI前沿

为何 AI 看似千篇一律：Replit 首席执行官谈 “草率之作”、“玩具” 与缺失要素

在人工智能（AI）蓬勃发展的今天，尽管 AI 技术取得了显著进步，应用也日益广泛，但一种观点认为 AI 给人的感觉有些 “千篇一律”。Replit 首席执行官就这一现象发表了见解，…

王浩然
2026年1月12日
000
AI前沿

人工智能增强人力资源，但以人为本的方法不可或缺

随着人工智能 (AI) 在人力资源领域不断开辟新天地，其接受度也越来越高。最近的一项研究显示，近一半接受调查的英国和美国员工认为人工智能有助于减少偏见和不公平的招聘待遇；许多人甚至…

王浩然
2025年1月13日
000
AI前沿

Wispr Flow获3000万美元融资，Menlo Ventures领投打造AI语音输入新纪元

在人工智能（AI）技术日新月异的今天，一款旨在革新语音输入体验的应用——Wispr Flow，宣布成功完成了3000万美元的Series A轮融资。本轮融资由知名风投机构Menlo…

王浩然
2025年6月30日
000
AI前沿

在线课程 completion率仅12.6%：AI如何重构设计破解困局

每年，数以百万计的人花费数千美元投身在线课程，期望借此习得新技能、转变职业轨迹，或是提升日常生活质量。然而残酷的现实是，仅有12.6%的人能完成课程，真正获取自己付费购买的全部价值…

王浩然
2026年1月28日
000
GitHub 领跑企业赛道，Claude 稳居综合榜首，Cursor 速度优势难破格局

在 AI 编程工具竞争白热化的当下，不同产品正凭借差异化优势抢占细分市场 —— 有的深耕企业级服务生态，有的凭借综合性能领跑行业，有的则以极致速度吸引用户。2025 年最新行业数据…

王浩然
AI前沿 2025年10月5日
000
AI前沿

CommonPool数据集：AI训练数据隐私与伦理困境的破局之道‌

在人工智能技术突飞猛进的2025年，数据作为AI系统的命脉正面临前所未有的伦理挑战。由Dr. Assad Abbas撰写的深度分析揭示了当前AI训练数据领域的核心矛盾：一方面，GP…

王浩然
2025年9月12日
000
AI前沿

Couchbase 推出全新 Capella AI 服务，让企业 AI 更贴近数据

数据库平台开发商Couchbase正在寻求帮助解决企业 AI 部署中日益常见的问题。即如何以尽可能快速和安全的方式让数据更接近 AI。最终目标是使构建和部署企业 AI 变得更简单、…

王浩然
2024年12月3日
000
AI前沿

最推荐的电动汽车充电器公司之一刚刚抛弃了美国用户

任何电动汽车车主都会告诉你，买一个好的充电器是一项重要的投资。使用电动可能会让您不必去加油站，但您的汽车仍然需要能源才能运行，一个好的充电器将确保您的电池快速充满，同时保护它免受任…

点点
2024年10月8日
000
AI前沿

佳士得宣布人工智能艺术品拍卖，但并非所有人都满意

艺术品拍卖行佳士得此前曾出售过人工智能生成的艺术品。但很快，佳士得计划举办首场专门展示人工智能创作作品的展览，这一消息引发了褒贬不一的评价。佳士得将此次拍卖称为“增强智能”，拍卖…

王浩然
2025年2月10日
000
AI前沿

AI 初创公司为何自主掌控数据：从质量突围到构建核心竞争壁垒

在生成式 AI 技术飞速迭代的当下，数据已不再是简单的 “训练原料”，而是决定 AI 模型性能、产品竞争力乃至企业生存的核心资产。越来越多 AI 初创公司正跳出 “依赖第三方数据”…

王浩然
2025年10月20日
000
AI前沿

Instacart 携手 OpenAI 试点智能体电商：ChatGPT 内实现 “全链路购物”，重塑零售交互范式

生鲜电商平台 Instacart 通过新兴的 “智能体电商协议（Agentic Commerce Protocol）”，在 ChatGPT 内嵌入完整结账体验，成为首个在该平台实现…

王浩然
2025年12月12日
000
AI前沿

PIN AI 推出移动应用程序，让您可以在手机上创建自己的个性化、私人 DeepSeek 或 Llama 驱动的 AI 模型

通过《她》和其他众多科幻作品，我们很容易想象这样一个世界：每个人都有自己的个性化人工智能助手——它知道我们是谁、我们的职业、我们的爱好、我们的目标和激情、我们的好恶…&…

王浩然
2025年2月14日
000
AI前沿

AI写新闻已达人类水平：小模型也能骗过读者，内容检测需转向技术方案

当你阅读一篇新闻报道时，还能笃定它出自人类记者之手吗？近日，一项由德法两国研究团队联合开展的研究给出了颠覆性答案：即便是开源小参数AI模型生成的新闻，也能达到与人类记者创作、甚至G…

王浩然
2026年4月9日
000

发表回复

Please Login to Comment

Chronosphere 推出 AI 引导故障排查功能，以 “可解释性” 挑战 Datadog，重塑可观测性市场格局

相关推荐

发表回复