
估值 16 亿美元的纽约可观测性初创企业 Chronosphere 宣布推出 AI-Guided Troubleshooting(AI 引导故障排查)功能,旨在帮助工程师快速诊断并解决生产软件故障。这一举措直指当前行业痛点:AI 代码生成工具加速了代码创建速度,却让系统复杂度飙升,传统手动故障排查模式已难以应对 —— 据 Chronosphere 研究,企业日志数据量同比增长 250%,MIT 与宾夕法尼亚大学的联合研究也显示,生成式 AI 使每周代码提交量增加 13.5%,开发效率提升的同时,系统故障定位难度呈指数级上升。Chronosphere 的新功能通过 “时序知识图谱(Temporal Knowledge Graph)” 与 AI 驱动分析的结合,打破了传统可观测性工具 “仅识别故障、不解释原因” 的局限,试图在 Datadog、Dynatrace、Splunk 等行业巨头占据的市场中开辟差异化赛道。
Chronosphere CEO 兼联合创始人 Martin Mao 在专访中强调,可观测性领域的 AI 不能仅停留在模式识别与信息总结,“需要让 AI 真正理解系统,才能为工程师提供可信的指导”。此次推出的 AI-Guided Troubleshooting 围绕四大核心能力构建:一是 “自动化建议(Suggestions)”,基于数据为工程师提供优先级排序的排查路径,例如某电商结账服务出现 SLO 告警时,系统会优先提示 “错误可能源自依赖的支付服务”,并附上时间线、依赖关系、错误模式等证据;二是 “时序知识图谱(Temporal Knowledge Graph)”,这一动态更新的系统地图整合了遥测数据(指标、追踪、日志)、基础设施上下文、变更事件(如部署、特性开关调整)及人工记录(笔记、运行手册),区别于 Datadog 等竞品的 “静态服务依赖图”,它额外加入 “时间维度”,可追踪服务与依赖关系的变化,并关联这些变化与故障的因果链路 —— 例如某支付服务的特性开关更新后,Pod 内存耗尽,进而导致下游结账服务响应延迟,图谱会清晰呈现这一因果链;三是 “排查笔记本(Investigation Notebooks)”,自动记录每一步排查过程,包括查看的证据、验证的假设、得出的结论,形成可复用的故障处理文档,同时将结果反馈给时序知识图谱,优化未来故障的排查效率;四是 “自然语言查询”,允许工程师用日常语言(如 “为什么支付服务昨晚出现内存峰值”)检索可观测性数据,降低技术门槛。
在设计理念上,Chronosphere 坚持 “工程师主导” 原则,刻意避免 AI 自动决策,核心目标是解决早期 AI 可观测性工具的 “自信但错误” 问题。Mao 举例说明:当系统检测到结账服务 SLO 告警时,会生成带证据的排查建议,工程师可点击 “深入调查” 查看支撑结论的图表与推理逻辑,若认可则继续深挖支付服务,系统会动态生成针对该服务的新建议;若发现偏差,也可手动调整方向,全程无 “黑箱操作”。这种 “透明化” 设计体现在每一个细节 —— 每个建议都附带 “为何推荐此路径” 的视图,清晰展示 AI 排查过的维度与排除的可能性,例如 “未推荐数据库排查,因数据库指标在故障时段无异常波动”,让工程师能验证 AI 逻辑的合理性,避免被误导至无效方向。
从市场竞争来看,Chronosphere 面临的是 Datadog(估值超 400 亿美元)、Dynatrace、Splunk 等 “一体化平台” 巨头的挤压,这些竞品均已推出 AI 故障排查功能,但 Chronosphere 的差异化优势集中在两点。一是 “自定义遥测数据覆盖”:Mao 指出,多数平台仅能处理标准化集成数据(如 Kubernetes、主流云服务、常用数据库),忽略了最能反映问题的 “自定义应用遥测数据”(如某零售系统的订单处理链路指标),导致 AI 因数据不全产生 “幻觉”;而 Chronosphere 的时序知识图谱可归一化非标准遥测数据,确保 AI 能基于完整信息推理。二是 “成本控制能力”:Chronosphere 宣称其平台平均可减少 84% 的数据量与相关成本,同时将严重故障减少 75%,客户案例也印证这一优势 ——Robinhood 通过该平台将可靠性提升 5 倍,平均检测时间缩短 4 倍;Astronomer 通过数据摄入阶段的筛选,实现超 85% 的成本降低;Affirm 在黑色星期五期间将负载提升 10 倍,未出现任何故障。这一成本优势源于其 “数据塑形” 技术,可在采集阶段过滤冗余数据,避免存储大量无用日志 —— 据 CUBE Research 分析师 Paul Nashawaty 统计,企业超 70% 的可观测性支出用于存储 “从未查询过的日志”,而 Chronosphere 的方案恰好解决这一浪费问题。
行业认可与客户实践进一步支撑了 Chronosphere 的竞争力。2025 年 7 月,Gartner 连续第二年将其列为《可观测性平台魔力象限》领导者,认可其 “愿景完整性” 与 “执行能力”;2024 年 12 月,在 Gartner Peer Insights “客户之声” 报告中,其以 4.7/5 的评分(基于 70 条评论)与其他厂商并列第一。高 – profile 客户方面,OpenAI 已同时部署 Datadog 与 Chronosphere 监控 GPU 工作负载,UBS 分析师指出,Chronosphere 的使用率上升可能对 Datadog 的定价能力构成压力;DoorDash、Zillow、Snap、Affirm 等高速增长的科技企业也选择其作为可观测性解决方案,核心原因在于这些企业的云原生、Kubernetes 架构规模庞大,对 “自定义遥测支持” 与 “成本控制” 的需求更为迫切。
此外,Chronosphere 还通过 “合作伙伴计划” 强化生态优势,而非追求 “一体化平台”。其近期整合了五家专业厂商的能力:Arize(大语言模型监控)、Embrace(真实用户监控)、Polar Signals(持续性能分析)、Checkly(合成监控)、Rootly(事件管理)。Mao 表示,“一体化平台可能满足小型企业需求,但全球化企业需要每个领域的最佳工具”,例如与 Rootly 的集成可让工程师在现有沟通渠道(如 Slack)中获取 Chronosphere 的故障上下文,将严重故障的重复发生率降低 78% 以上。尽管当前客户需与各合作伙伴单独签约,但 Chronosphere 计划未来推出 “统一合同”,简化采购流程,同时保持 “模块化” 优势 —— 客户可根据需求选择所需工具,避免为冗余功能付费。
Chronosphere 的起源也为其技术理念奠定基础。2019 年,Mao 与联合创始人 Rob Skillington 从 Uber 离职,此前他们在 Uber 打造的内部可观测性平台曾解决 “万圣节、跨年夜高流量时段工具崩溃” 的危机。2018 年行业会议上,谷歌 Kubernetes 获主流云厂商支持,他们意识到 “未来多数企业架构将向 Uber 靠拢,都会面临相同的可观测性难题”,遂创立 Chronosphere。截至目前,公司已获 Greylock、Lux Capital 等机构超 3.43 亿美元融资,采用远程优先模式,在纽约、奥斯汀、波士顿等多地设有办公室,员工约 299 人(据 LinkedIn 数据)。
从产品落地节奏来看,AI-Guided Troubleshooting 的 “建议” 与 “排查笔记本” 功能已向部分客户开放限量测试,计划 2026 年全面上市;支持工程师将 Chronosphere 集成至内部 AI 工作流的 “模型上下文协议(MCP)服务器” 已立即向所有客户开放。这种 “谨慎迭代” 策略源于对生产环境风险的敬畏 —— 通过早期客户反馈优化算法,确保 AI 建议真正加速排查,而非仅在演示中表现亮眼。
长远来看,Chronosphere 的战略赌注在于 “可观测性的未来是‘透明化 AI’而非‘自动化黑箱’”。在系统复杂度因 AI 代码生成而持续提升的背景下,工程师对 AI 的信任成为关键 —— 只有让 AI“展示推理过程、承认知识边界、交由人类决策”,才能真正提升故障处理效率。正如 Mao 所言,“AI 做计算,工程师做判断,这种协作模式才是应对 AI 时代可观测性挑战的核心”。对于企业而言,这一模式不仅能缩短故障恢复时间、降低成本,更能让每一次故障成为 “可复用的知识资产”,推动系统稳定性从 “被动响应” 向 “主动防御” 进化。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/chronosphere-tui-chu-ai-yin-dao-gu-zhang-pai-cha-gong-neng