TEL: 4008-215-724 MAIL: info@eoitek.com

客户案例

云监控平台 — 全国最大的开放式平台型综合支付服务商

● 管理的大系统共20个,子系统超过200个,监控的服务器数量近十万。平台涵盖Unix小型机、数据库和中间件等。
● 用擎创夏洛克AIOps建立了统一的云监控和日志分析平台,成为生产监控、排查问题的主要工具。对于没有实现监控和日志采集的平台,采用Agent进行完整的性能及日志数据采集,保证基础监控覆盖的全面性。集中统一管理日志、串联业务日志;通过关键字和异常检测实现准实时告警。 云监控、日志平台的数据全部纳入运营大数据,实现容量分析、资源弹性扩缩容、多维数据的异常检测、故障定位和根因分析等。
● 客户收益:替代商业监控工具,节省大量投入;服务器自动发现、部署采集agent、配置,节省人力;数字运维中台提升了数据集中度,基于多维数据的异常检测使告警更加精准,影响性分析更加细化,故障定位更快更准。

统一监控平台 — 某大型证券交易服务机构

● 物理机和虚拟机超过5000台,无法全面了解及获取监控数据信息、资源使用和应用访问情况。
● 应用多达100多个,调用关系复杂;某些应用每日告警发生多则600万条,少则1万多条,人力无法有效处理。
● 擎创夏洛克AIOps提供统一告警数据集成接入接口,实现对告警接入、告警通知、告警规则策略等基本功能的全覆盖。并建设标准告警管理规范,配合统一告警平台使用,提升告警的场景化能力,提高告警压缩率。通过告警回溯指标/日志等数据特征,辅助根因分析。
● 客户收益:成功建设云平台监控门户网站,提供资源状态信息、应用状态信息等监控数据;升级分发能力,根据告警未响应时间,通过多级分发通知,最大程度地保证告警可知,并将告警内容通过语音等形式进行播报。

运维大数据平台 – 某大型国有股份制银行

● 数据规模大、数据结构复杂多样、分散不集中,无法统一查询和关联分析;监控不全面,缺乏对整体业务运行状态的监控;固定阈值告警,误报漏报率高;发现问题被动,无法在用户受影响之前及时识别问题,严重依赖运维人员经验;系统性能和容量预测缺乏数据依据和科学分析,设备统计和容量分析难落地;个性化场景需求烟囱式开发,效率低、统一难;跨多源环境的服务交付的复杂性超出当前技术能力。
● 进行了数据标准化、平台一体化、场景自主化、运维智能化建设。
● 客户收益:AIOps平台自动排查和处理故障隐患,降低业务中断发生的风险;每月提供的容量扩容建议事件约60起;通过智能算法比传统监控平均发现问题提前约15分钟。智能化、自动化的分析与响应方法,减少误报率以及人员分析排查时间,节约安全运营成本投入。AIOps平台之前,平均应急召集告警时间约60分钟,建成之后平均每人处理告警时间约为10分钟。

智能运维平台 — 某大型股份制银行数据中心

● 服务器节点5000+,400套业务,20+运维工具,日增7.5T数据;已购Splunk日志数据处理流量只能满足不到1/30的处理需求。
● 原日志工具基本为事后统计分析,缺乏实时分析能力;主要依赖人工经验通过报表来分析数据,缺乏智能化手段进行动态分析。
● 为约400个系统建立系统画像,涵盖系统的健康度、性能、交易特性等各个维度;通过AI算法实现对于性能指标的智能基线和异常波动检测、趋势预测、告警智能合并;实时采集应用日志,并进行实时和历史统计的分析。同时对运维人员生成人员画像,通过算法实现部分风险发现和内控功能。
● 客户收益:提供了海量数据的实时采集和查询的端到端处理能力;全面替换固定监控阈值,减少无效告警数近50%,同时提升运维人员对核心关键指标的感知度;提炼和关联各类运维信息,提升运维值班的故障处理能力。