IT行业,互联网行业 
收藏文章 楼主

企业集中监控体系思路及架构

版块:IT/互联网   类型:普通   作者:小羊羔links   查看:496   回复:0   获赞:0   时间:2022-02-12 16:08:36

  所谓“监控”,即包括“监”+“控”,即应该具备对运维数字世界的运行情况进行感知、决策、应急处置的能力,是业务连续性保障能力的基础。因为要感知,所以监控需要具备实时的数据采集能力,而监控采集的性能、容量、运营等数据又为智能运维提供数据资产。由于生产系统运行涉及面极广,监控工具很多,企业很自然的会有合而为一的决策,像集中监控就是一个常见的项目。但是,需要关注的是,一方面市场上成熟的监控系统很多,不同层面的监控工具关注点又各不一样,通常很难选择一个包罗所有能力的监控系统;另一方面企业里的监控系统经过一段时间沉淀,原有监控系统最大的价值已经不是监控系统本身,而是上面的监控配置项,事实上很多技术架构及功能并不优秀的监控系统很难替换的原因就在于此。所以,本文讲的集中监控不是讲一个监控系统,而是站在运维组织角度看监控体系。

  

  (注:一些细化内容可以参见《监控体系建设》(点击标题可阅读))

  

  1. 从飞机监控看运维监控

  

  如果说运维行业工作特点是如履薄冰,那航空公司的运维是事关生死,借鉴航空公司的运维方案有助于持续提升业务连续性保障能力。以监控为例,一方面,如果机组人员遗漏或延迟响应监控报警,可能会产生灾难,要求监控系统的可靠性,报警的准确性;另一方面,影响飞行安全的因素很多,不仅包括飞机自身的设备可靠性,燃油,气候,航站楼安排等每一个环节都需要监控到位,要求监控系统覆盖面;同时,由于事关生死,监控报警响应、处理、复盘的管理得到严格落实。

  

  本节内容源于早前看过一篇关于波音777-200LR飞机监控的贴子,为了实现一架飞机的监控管理,波音777-200LR飞机部署了超过3000个传感器,内容覆盖飞机内部设备、人员操作、外部环境、燃油等多个维度的监控。鉴于监控报警的优先级不同,对监控的信息触达与处置方式进行分级,以确保监控报警信息能够得到处理。飞机这种监控分级,报警处置要求,以及配套不同级别的提示对于运维监控体系有借鉴作用。以下摘录出一些有意思的内容。

  

  1)报警分级

  

  飞机监控系统对不同的监控报警划分了5个级别,每个级别有不同定义,并有多种不同的报警方式。通过报警分级,飞行员或飞机运营人员可以有主次的进行针对性处理与决策。5个级别包括:

  

  备忘

  

  备忘表示飞机的一种正常状态,但该状态需要机组知晓,类似于汽车上的大灯远光开启这样的指示信号。该级别信息通常为白色显示,无声音或首次出现时伴随单次提示音。

  

  咨询

  

  咨询表示飞机的一种异常状态,但该状态不会立即威胁飞行安全,条件允许时应予以关注。该级别信息通常为黄色显示,无声音或首次出现时伴随单次提示音。

  

  警戒

  

  警戒表示飞机出现故障或处于明显异常状态,该状态正在威胁飞行安全,应尽快予以关注。该级别信息通常为黄色显示,伴随连续谐音警告或嘟嘟声。

  

  告警

  

  告警表示飞机出现严重故障或处于危险状态,该状态已经严重威胁飞行安全,必须立即采取措施,否则极可能发生致命事故。该级别信息通常为红色显示,且故障排除前无法清除显示的内容,伴随不间断高分贝警告音或语音播报。

  

  急迫告警

  

  急迫告警表示飞机出现严重故障且持续恶化或处于即将发生致命事故的状态,必须立即采取措施,否则将不可避免的发生致命事故。该级别信息通常为红色显示,且故障排除前无法清除显示的内容,伴随不可关闭的不间断高分贝警告音或语音播报。

  

  注:还有一个维护级别,但该级别信息主要展示给地勤,起飞后无需关注,该级别信息通常为白色显示,无声音,仅在地面显示或多功能显示器选择维护页面时显示。

  

  2)报警触达手段

  

  注意到上面不同的报警级别,会有一些不同的报警触达手段,以【急迫告警】级别为例:“……该级别信息通常为红色显示,且故障排除前无法清除显示的内容,伴随不可关闭的不间断高分贝警告音或语音播报。”

  

  除了上述报警触达手段,飞机上还有其他触达手段,比如在不同面板,通过颜色、声音等方式进行设计,这些方法对于报警的响应处理是一个辅助手段。

  

  * PFD显示:在主飞行仪表上显示

  

  * ND显示:在导航仪表上显示

  

  * EICAS显示:在综合信息仪表上显示

  

  * 其他面板显示:在飞行管理计算机,备用仪表等其他面板上显示

  

  * 主警报红:红色主警报灯亮起

  

  * 主警报黄:黄色主警报灯亮起

  

  * 专用警报灯:专用于该警报的灯光亮起

  

  * 声音警报:各种声音效果警报

  

  * 语音警报:语音播报的警报

  

  * 其他警报:操作杆震动等其他警报方式

  

  3)监控覆盖类型

  

  飞机报警来源很多,比如设备故障、维修不当、设计失误、航管指挥、天气、鸟击、机员失误等因素,具体落地到飞机监控覆盖点包括:

  

  * 引气系统监控:引气系统提供高压空气,与增压,除冰,气动液压泵,空调,引气启动等系统有关。

  

  * 自动飞行系统监控:现代商业飞行全程95%以上的时间飞机由自动驾驶系统控制。

  

  * 通信系统监控:检测数字通信方面的问题,主要是天地数据链。

  

  * 电路有关监控:飞机电力系统十分完善,通常不可能意外断电,因此警报级别比较一般,所有电力系统的详细工作状态都可以在电力显示中查看。

  

  * 引擎有关监控:发动机可以说是整个飞机中最重要最昂贵的设备。

  

  * 火警有关监控:驾驶舱可见的火警警报,有些区域的烟雾和火警警报反应在乘务员面板上。

  

  * 飞行操作有关监控:飞行操作系统包括多个扰流板,附翼,襟附翼,方向舵,安定面,升降舵等控制面,和一系列飞行计算机,由于飞行操作系统直接关乎飞行安全,所以拥有较高的警报级别。

  

  * 飞行管理和导航系统监控:导航帮助飞机实现高级自动驾驶,和更高的自动化飞行管理,大幅度降低机组的工作量。

  

  还有其他监控分类,比如燃油、液压、起落架、飞行保护系统、地形,姿态,风切等。我们可以看到飞机的监控包括外部环境、内部核心部件与关联性系统、飞行操作等监控,可以看到飞机监控是一个多种监控点组合而来。

  

  4)监控报警信息

  

  监控报警信息的准确性、关键信息有效传递也很重要,这样才能增加监控报警出现后,处置的高效。以下是两个咨询类报警的示例,值得运维监控报警信息的学习:

  

  “警报名称:机组氧气压力低

  

  警报级别:咨询

  

  警报方式:EICAS显示:黄CREW OXYGEN LOW

  

  触发逻辑:机组备用氧气钢瓶压力低

  

  补充信息:可在维护信息显示中查看详细状况,备用氧气仅供失压或驾驶舱烟雾状态下使用”

  

  “警报名称:自动驾驶失效

  

  警报级别:告警,若在自动着陆系统工作时发生升级为急迫告警

  

  警报方式:EICAS显示:红AUTOPILOT DISC,笛声,主警报红

  

  触发逻辑:自动驾驶无法在指令的工作状态工作或飞行计算机正在放弃对飞行的控制权(包括人工断开自动驾驶)

  

  补充信息:抓住操作杆并按下自动驾驶按钮可以解除警报转入人工控制(PFD将显示F/D模式)”

  

  5)基于飞机传感器数据分析更好感知飞机状况

  

  美国五角大楼根据数字孪生理论,从飞机传感器采集分析运行数据,构建一个数字孪生飞机模型,辅助飞机运维人员与飞行员进行决策。即从飞机设备运行数据采集起来,记录实体发动机的运营商、 飞行小时数、运营情况、维修情况等信息,为每台发动机生成数字孪生模型。采用这种数字孪生技术监控飞机发动机,运营人员可以更好分析发现飞机运行的潜在风险,并触发异常报警,帮助飞机运维人员更快的发现问题。

  

  从上面飞机监控系统,我们可以看到飞机监控系统的设计,真正落实了监控系统的“不漏报、少误报、高响应”基本目标,并利用数字孪生这种上帝视角全面观察飞机运行状况。汇总一下有以下一些特点:

  

  * 外部因素、飞机设备、人工操作、自动驾驶、燃油容量等多种因素都可能影响飞机的正常航行,需要实现多种监控策略与手段。

  

  * 监控报警进行了统一汇总,对监控报警进行分级管理。

  

  * 为了让监控报警得到有效处理,提供了多种不同类型的监控触达方式。

  

  * 分析监控采集的性能指标数据,可提供运行感知、辅助决策的数据支撑。

  

  * 飞机监控系统与自动化系统相结合,为飞行决策提供支撑。

  

  2.关于集中监控总体思路

  

  企业的生产系统要运行良好,需要保证一系列的软硬件设施的稳定运行,比如机房环控、网络设施、服务器设施、系统软件、数据库、中间件、应用服务,以及交易与客户体验层面等等因素都与稳定息息相关,经过多年的信息化建设,很多公司己针对上述软硬件设施配套了多种监控手段,但如同其它领域的信息化建设一样,运维监控的信息化建设中信息孤岛,烟囱建设的问题也比较突出,以下归纳了监控工具的一些常见问题:

  

  * 缺乏持续优化监控体系的机制,既存在监控报警风暴、监控误报多的现象,也存在对一些个性化的业务缺少监控覆盖,监控漏报的情况;

  

  * 缺乏统筹建设,监控工具重复建设情况突出,且工具与工具间缺乏互联互通,无法形成互补;

  

  * 监控数据的报警事件、性能数据集中程度不够,没有有效的利用这些数据辅助运维优化工作;

  

  由于运维涉及的领域越来越多,系统架构异构情况越来越明显,没有哪一个监控工具能够做到一篮子解决方案,往往硬件厂商擅长硬件监控,软件厂商擅长软件监控,DBA擅长数据库监控,业务运维擅长业务监控、性能分析团队擅长性能体验监控等,基于这个现状,建议传统企业的监控平台规划可以用以下几个思路作为切入点:

  

  * 监控基本目标是“不漏报、少误报、高响应”;

  

  * 站在整个运维组织看集中监控,源端监控工具关注“不漏报、少误报”,集中监控平台关注“少误报、高响应”;

  

  * 源端监控工具采用分层方式,划分监控覆盖面能力要求;

  

  * 集中监控平台整合源端监控工具产生的性能指标、报警数据,实现通用的平台能力;

  

  * 基于数据驱动,量化“不漏报、少误报、高响应”指标,持续优化;

  

  * 利用监控性能指标、报警数据,与日志、配置、操作、流程等数据,结合算法,进一步完善“不漏报、少误报、高响应”的目标;

  

  基于上述的监控平台建设原则,抽象了监控能力的整体思路(如下图),建立以集中监控平台的思路,确保监控覆盖面,完善监控工具,丰富监控平台能力,并通过智能化不断提高监控手段.

小羊羔锚文本外链网站长https://seo-links.cn 
回复列表
默认   热门   正序   倒序

回复:企业集中监控体系思路及架构

Powered by 小羊羔外链网 8.3.7

©2015 - 2024 小羊羔外链网

免费发软文外链 鄂ICP备16014738号-6

您的IP:52.54.103.76,2024-03-29 06:42:57,Processed in 0.04907 second(s).

支持原创软件,抵制盗版,共创美好明天!
头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息