
现状与挑战
在云原生、微服务架构全面普及的今天,企业 IT 系统日益复杂,传统监控工具面临四大核心困境
数据孤岛严重
指标、日志、链路、事件分散在不同系统,工程师需要在多个平台间反复切换,无法形成统一的系统观测视图
告警风暴频发
缺乏智能降噪能力,日均告警量动辄成千上万条,有效告警被淹没在噪音中,运维团队疲于奔命
故障定位缓慢
出现问题后缺乏全链路关联分析能力,排查过程依赖人工经验,平均故障恢复时间长达数十分钟甚至数小时
成本居高不下
云资源使用缺乏精细化洞察,闲置资源无法识别,资源优化全凭经验,云支出持续失控
产品定位
观测云是 CloudCare 旗下的新一代统一可观测性平台,于 2022 年正式发布。作为AI 时代的智能监控云服务,观测云致力于为企业提供覆盖云、云原生、应用及业务的全链路可观测解决方案。
平台将基础设施监测、日志分析、应用性能监测、用户访问监测、服务可用性监测、安全监测、LLM 监测、CI 环境洞察等能力深度融合,构建了从底层基础设施到上层业务应用的全栈可观测体系。通过自研的 GuanceDB 3.0 数据引擎和Obsy AI 智能体,观测云实现了海量数据的高效处理和智能化分析,帮助企业快速实现系统可观测性,提升故障排查效率,降低运维成本,助力业务稳定增长。
目前,观测云已服务1000 余个全球行业客户,每日安全合规处理数据量超过4000 亿条,支持 AWS、Azure、阿里云、华为云、腾讯云等全球主流云厂商。
全栈统一观测
一站式采集并关联指标、日志、链路、事件四大类数据,彻底打破数据孤岛,实现从用户体验到基础设施的全链路洞察
AI 智能分析
基于大模型和机器学习技术,实现智能异常检测、秒级根因定位、预测性运维,平均故障排查时间缩短 60% 以上
海量数据处理能力
自研 GuanceDB 3.0 多模态数据库,存算分离架构,日志存储成本降低 70%,查询性能提升 2–4 倍
开箱即用
30 秒快速部署,内置 700+ 监控器模板、200+ 可视化视图模板,预置 100+ 常见技术栈采集方案
安全合规保障
集成 CSPM 与 SIEM 能力,构建 "资产 → 配置 → 行为" 一体化安全监测体系,满足等保及行业合规要求

【数据采集】DataKit 统一采集器
All In One 全栈数据采集入口
全栈数据覆盖
支持时序指标、日志、链路追踪、安全事件、用户行为数据等多类型数据采集
开源生态兼容
全面兼容 OpenTelemetry、Zipkin、SkyWalking、Zabbix 等主流开源探针和采集器
自定义接入
支持对自定义格式的数据源接入,满足多元化多场景需求
预处理与关联
采集同时进行预处理和元信息关联,为上层分析提供高质量数据基础
【APM】全链路应用性能监测
端到端 IT 性能监控,代码级定位
火焰图与 Profiling
内置火焰图与 Profiling 工具,直观展示慢查询和资源耗时热点
服务拓扑自动发现
系统自动构建服务关系调用图,开发者可直观发现应用服务瓶颈
前端体验关联
与用户访问数据相链接,洞察前端访问体验的真实情况
代码级定位
深入代码层面定位性能问题,助力精准优化业务体验
【日志分析】跨系统一站式检索
全栈日志溯源,AI 智能分析
多源接入
支持接入各类日志源,提供 30+ 主流日志字段提取模板
全栈溯源
全栈日志溯源能力,结合上下文整体排查,快速发现并解决问题
智能分析
结合 AI 能力进行日志模式识别和异常检测,大幅提升数据价值
【用户访问】真实用户体验洞察
全终端覆盖,多维体验分析
全终端覆盖
全面覆盖 Web、移动端(Android & iOS)、小程序等多种终端
多维分析
提供页面性能、资源调用、错误告警、业务访问等一系列数据及分析视图
体验优化
帮助优化产品性能,提升用户满意度和业务转化率
【智能监控】AI 驱动精准触达
分级告警,灵活配置,多渠道通知
分级告警
结合分级告警、告警沉默、通知对象管理等能力,确保告警精准触达
灵活配置
支持基于指标、日志、应用性能、用户体验、SLO 等灵活配置告警
多渠道通知
支持邮件、短信、Webhook、企业微信、钉钉等多种通知方式
【安全监测】一体化安全可观测
CSPM + SIEM 构建安全监测体系
周期性扫描
通过新型安全脚本方式对系统、软件、日志等进行周期性扫描
实时报告输出
实时输出巡检数据报告并同步异常问题
安全建议
及时发现系统缺陷并获取相关巡检报告及安全建议
【AI 智能体】Obsy AI
LLM 全链路追踪,智能问答与自动处置
LLM 全链路追踪
将 LLM 请求与整个应用链路关联,追踪每一次对话的完整流程,精确计量 Token 消耗
Obsy AI 智能体
基于先进的 AI 大模型构建,实现告警聚合、根因分析、自然语言查询等智能化能力
智能问答
自然语言交互,快速获取系统状态和运维信息
自动处置
针对常见故障自动执行标准化处置流程
【可视化】灵活定制仪表板
20+ 图表,200+ 模板,拖拽式交互
丰富图表
内置 20+ 标准化可视化图表,200+ 数据监控视图模板
拖拽交互
灵活的场景布局、丰富的图表选择、拖拽式交互体验
统一查询
统一的数据查询方式 DQL,无需学习 PromQL、LogQL、KQL 等多种查询语言
【可用性监测】全球探测网络
多协议拨测,全球网络性能监测
全球探测节点
自建分布于全球的探测节点,覆盖多地区、多运营商
多协议拨测
支持 HTTP、TCP、ICMP、WEBSOCKET 等不同协议的拨测任务
网络质量监测
全面监测网络性能、网络质量、数据传输稳定性

观测云采用云原生分布式架构设计,整体分为数据采集层、数据处理层、数据存储层和应用服务层四个核心层级,实现了高可用、高弹性、高性能的统一可观测平台
数据采集层
(DataKit)数据处理层
(DataWay & DQL)数据存储层
(多模态数据库)应用服务层
(统一观测平台)
安踏集团
行业:运动品牌 / 新零售安踏作为全球布局的运动品牌,IT 架构遍布私有云、公有云和本地 IDC。原有的数十个分散开源监控工具无法互通数据,故障定位困难且资源浪费。
建设成果
- 实现 100+ 个核心业务系统的统一可观测能力,IT 与业务部门终于共享一份 "真相来源"
- 事故调查时间从过去的数小时缩短到分钟级甚至秒级
- 带动了从技术栈选型、日志输出规范到应用架构标准等多方面的提升,为全球拓展打下基础
长安汽车
行业:汽车制造接入观测云后,长安汽车打通了端到端的交易链路,从网络和服务器资源、应用服务、到前端页面和 POS 终端,实现全链路性能实时监控,帮助团队多维度定位问题。对数字化维保业务建立了实时的监控体系,业务、开发、运维数据打通,有了更好的数据支撑。
建设成果
- 端到端交易链路全链路性能实时监控
- 数字化维保业务实时监控体系建立
- 业务、开发、运维数据全面打通
通力电梯
行业:高端制造作为全球领先的自动扶梯与电梯制造企业,通力电梯通过观测云将日志、链路、指标、前端用户行为等数据,统一采集到一个平台展示和分析。开发、运维与业务团队首次基于同一份数据协同工作。
建设成果
- 显著缩短了故障定位与修复时间(MTTR)
- 为全球化业务运行提供了低延迟、符合当地合规要求的统一监控视角
易快报
行业:企业 SaaS / 费控管理易快报作为敏捷的企业报销与费控管理平台,原有的 ELK、Prometheus 以及第三方 APM 等开源系统无法支撑海量的日志检索和分析需求。
建设成果
- 全面替换分散的开源系统,满足企业全方位的监控需求
- 所有团队所有角色基于一个视角,团队协作效率至少提升 50%
- 监控系统投入的综合成本至少减少 50%
英雄互娱
行业:互联网游戏观测云为英雄互娱提供性能压测的全方位监控,通过 Profile 结合链路性能分析,帮助开发团队深入分析代码性能瓶颈,实现精准的代码调优。
建设成果
- 借助 JVM 分析与 Redis 观测能力,将关键接口吞吐能力提升了 3 倍
- 避免了大版本上线期间的性能瓶颈
极氪汽车
行业:新能源汽车观测云为极氪汽车提供多云数据一站式管理解决方案,打破了云平台之间的壁垒,实现跨云环境的统一观测。
建设成果
- 跨云环境统一观测,提升运维效率和资源透明度
- 为业务的快速发展提供坚实保障