您是否遇到过以下困扰:
业务问题:系统突发故障,多人紧急排查,还不一定能在短时间内找到故障所在,想要快速定位故障,怎么办呢?
技术问题:告警事件太多了,如何从海量告警事件中处理甑别出有用的故障信息?
管理问题:工作人员每天要面对多个网管终端,靠人工在海量告警事件中人工去分辨出真实的故障信息,耗人又耗财?
如果以上问题困扰到您,别担心,普坤科技的综合网管解决方案来帮你解决烦忧!
综合网管解决方案框架
综合网管系统是通过特征告警触发故障场景判断,从服务关联的进程和进程相关的机器开始向下逐个追溯资源汇集点,找到告警根因精确定位故障点,发出通知信息,进而进行故障修复。
系统建设主要效果:
1、多探针部署,每个网管对应一个探针,分割成小股流量先期压缩过滤归并
2、多级收敛,逐级压缩,并设立告警白名单,分别处理打标签
3、采集层收集了全量的探针处理后告警信息,并实时入库
4、基于标签,白名单告警送呈现层,此时的告警量已压缩过滤了近90%
主要特点:
1、海量告警事件处理能力:分布式并行处理+多级压缩机制,每日处理告警事件可以达数百万级,并可根据系统负荷按照定义优先级自动过滤事件
2、灵活强大的告警关联分析机制:包括告警间的关联分析和客户影响分析
3、直观的告警显示:统一的告警模型,可根据不同业务系统,将告警集中呈现
4、告警压缩处理:多条重复告警,系统会压缩归并成一条,记录初始发生的告警时间和最新发生的告警时间,同时累加告警次数