收藏文章 楼主

人工智能技术如何应用于容灾领域?未来有哪些应用方向?|《迈向YB数据时代》

版块:IT/互联网   类型:普通   作者:小羊羔links   查看:672   回复:0   获赞:0   时间:2022-09-15 23:09:16

互联网高度发达的今天,人工智能已成为各行各业数字化转型的重要课题,在企业的容灾领域同样是一个值得探讨并且具备相当潜力的应用方向。但在企业的容灾领域当中,企业IT技术从业者当前需要考虑在特殊的场景特点和不同的需求特性的前提下如何将人工智能技术的特质应用到容灾领域的哪些场景当中去。我们特意邀请了行业的专家同行来聊聊人工智能技术如何应用于容灾领域,未来有哪些应用方向。



本期为大家带来《迈向YB数据时代》2022年春季刊“趋势动态”栏目中的议题一

人工智能技术如何应用于容灾领域?未来有哪些应用方向?


社区专家主张

议题主编 苏海涛 嘉兴银行科技部总经理 本次议题由本人以及民生银行数据库架构师孔再华、兰州大学第一医院架构师于志轩分别根据议题方向发表了自己的观点,希望这些观点可以为众多同行看清前路趋势提供一点有益参考。


苏海涛 嘉兴银行科技部总经理

数字化转型背景下容灾体系建设产生了新的需求,我们应当在当前被动式容灾体系的基础之上的提升能力构建主动式容灾体系。


数字化转型进程下的容灾体系需求

在今年3月国务院发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》的深化金融供给侧结构性改革中明确提出,要加快金融机构的数字化转型进程。这对当前金融机构的容灾体系建设也提出了新的要求。

在过去基于《银行业信息系统灾难恢复管理规范》(JR/T0044-2008 的规范体系中,实际上是将容灾体系的建设分为了三个部分 标准、制度和组织。而规范中所要求的内容,都是在围绕当灾难发生后所需要具备的业务恢复的相关能力要素,相当于这是一套被动的标准体系。

而在当前数字化转型的进程下,业务敏捷的需求,对于容灾体系的建设也提出了新的挑战,业务的敏捷首选需要基础设施的敏捷,而容灾体系往往是从基础设施的能力开始构建的。

我们认为,在新时期的容灾体系建设产生了以下几点新的需求

1 由于业务敏捷和以客户为中心的现实需要,容灾体系将会由过去的被动处置模式转变为主动发现模式,通过主动发现,提前预防 预判灾难的发生,从而提升服务质量;

2 机器学习、深度学习和人工智能的应用,有利于降低组织在数字化转型过程中容灾体系建设中的人力成本;3 利用可编程的基础设施,简化运维难度,提升灾后重建的效率。

变被动为主动

以往的业务容灾体系是以灾难发生后如何处置为核心原则,从灾备中心建设、多级数据容灾保护的要求,以及每年度的多次容灾演练制度,其目的都是在于灾后的应急需要。

近两年行业中所提倡的主动式运维,其根本目的也是为了更好的保障业务的连续性,以客户为中心,为业务敏捷提供保障,而实际上主动式运维也包括了主动式容灾体系的建设。

构建一个主动式容灾体系,首先应当是建立在当下被动式容灾体系的基础之上的能力提升,而不是完全的抛弃。具体的说,由被动式的容灾转变为主动式容灾体系的第一步,首先应当是解决当下被动容灾体系的效率问题,即自动化问题。借由对当下体系的效率精益,积累经验,实现裂变,最终完全转变为可预测的主动式容灾体系。

这其中我们认为首先应当解决的是数据效率的问题,随着数字化进程的加快,数据的增长其实已经成为了制约实现容灾效率的主要障碍。尤其在基于云原生应用的场景下的被动容灾体系建设,非常困难。当下现实的做法是将无状态的应用基于云原生环境部署,而有状态的应用仍然以传统的方式来构建,从而降低容灾体系的建设难度,但是这种架构实际上是因为缺乏有效的技术手段而不得不采取的折中方案在考察了国外同业的架构设计后发现,其实已经有大量的持久化应用基于云原生的实践,往往是基于多云部署分布式的应用来提升业务的可用性,这是是行业内通常的做法,但是这其中也存在一些潜在的风险要素

1 分布式跨云部署的共识效率问题,因为链路、分布式共识机制等问题造成的执行效率降低,这显然是不符合收益的;

2 数据膨胀,基于跨云的MPP架构,多副本的数据效率问题,可能会增加数据容灾的管理难度;

3 仍然缺乏逻辑保护和立体的容灾体系建设解决方案,仅仅是解决了高可用问题,缺少有效的数据逻辑保护,以及多层次的业务保障。

针对这三点问题,在应用层 PaaS层也有不同程度的相关解决方案,但是技术方法适用性相对较窄,不具备普适性,这也为构建自动化的被动式容灾体系造成了障碍。从业务的数据构成来说,当下的现代化应用实际是以半结构化 非结构化的数据类型为主的数据应用类型,这就为我们从基础设施层考虑一体化的自动容灾体系建设提供了契机。

从制度上来说,应当遵从当前的行业规范对于业务连续性的相关标准,避免过度的高可用建设,要理清各业务的容灾边界。

在此基础上利用充分利用基础设施的能力来简化建设的难度,数据膨胀带来的数据备份窗口问题,可以通过快照、数据全局去重和全局压缩等解决方案来实现数据备份的敏捷。利用快照技术作为数据逻辑保护的基础能力,基于快照数据副本的D2D2T D2D2C来实现在线、近线、离线的多层次的数据保护要求。通过基础设施能力,对半结构化,非结构化数据提供普适性的数据容灾能力。而针对某些特殊的结构化数据应用,采用专有的容灾技术和流程,组合使用,从而降低实现自动化的门槛。

在应用层,基于可编排、可编程的云原生能力,这有助于提升灾后重建的效率。

最终的形态是构建一个可提供现代化应用容灾管理的PaaS平台,实现上述需求的统一管理。

AIOps 自动化运维的实践

当具备了一定程度的自动化被动容灾体系能力之后,就需要考虑如何通过人工智能和机器学习来释放生产力,逐步由被动式运维向主动式运维过渡。

这需要构建一个基于日志和状态指标的机器学习平台,通过对算法的迭代,基于数据给出主动的预测结果。

在行业内无论国内国外,当前的相关实践非常多,比如通过利用日志索引分析引擎,对网络峰值的分析来预测业务的峰谷情况,从而编排和改善资源的利用效率。通过数据链式的交互分析,进一步的将这些看似无关的数据进行二次创造,实现业务创新。这都为AIOps在组织内的应用开创了想象空间。通过这些数据分析,完全可以实现对于容灾的主动预判,比如

1 根据业务负载和备份流以及基础设施负载的分析,提供满足SLA的自动化弹性备份策略,提高数据备份效率;

2 通过对业务负载的实时分析,以及业务的关键行为分析,制定自动化的灾备验证策略,保证灾备端数据的可用性,提升灾难恢复过程的服务质量;

3 根据分析结果实时判断是否需要预热启动灾备站点,为灾难恢复缩短响应时间,提升业务连续性效率;

4 自动化的基础设施寿命预测,基础应用程序的已知Bug分析,主动避免灾难的发生等等。

而实现这些的前提,首先是释放人员的生产力,让有限的人力资源 入到数字化转型的价值要素中去。

可编程的基础设施

利用基础设施的能力、PaaS的能力、AIOps的能力,这些基础能力,实现容灾管道的自动化——即WFA(workflow automation 。

1 应用程序的可编排,降低了在容灾端重构业务的难度;

2 数据的备份、容灾基于基础设施的能力降低了备份与恢复的窗口;

3 基于AIOps为灾难的预测和优化容灾体系的效率提供了数据的支撑;

4 基础设施的自动化,则将复杂的PaaS,可以基于代码重构,这有利于加速灾后重建的效率;同样的,最终利用一体化的PaaS平台,将这些关键要素集成,形成真正意义上的人工智能容灾平台。


孔再华 民生银行数据库架构师

人工智能可以在容灾领域发挥很大的作用,让灾备建设和管理能力更进一步,在建立灾备大数据、建立灾备知识图谱、动态资源调配、中心资源规划几个方面都是人工智能可以应用的方向。


在容灾领域,通常认为采用各种复制技术实现数据中心的数据同步就算完成了灾备建设。事实上在灾备建设和应用的过程中,有非常多容易出问题的环节,所以对于灾备建设的管理和运维同样重要。

人工智能技术在很多行业已经得到了广泛应用。在基础设施的运维领域也出现了各种智能运维的案例。那么在容灾领域,人工智能技术又有什么样的应用场景呢?

先来回顾下容灾建设中曾经遇到的种种问题吧

在两地三中心架构下,有没有遇到中心网络不稳定影响灾备一致性,甚至影响当前的主中心业务性能?

有没有遇到晚上跑批 者业务繁忙导致双中心的复制延迟?这种情况只会影响当前这个系统吗?

灾备切换的服务器资源容量够吗?整体切换需要多久的时间?如果真的让灾备中心承载全部业务是否可行?灾备中心的容量规划怎么做?能不能做趋势预测?

灾备中心的服务器能否承载压力分流,该如何调控?

……

其实人工智能可以在容灾领域发挥很大的作用,让灾备建设和管理能力更进一步,下面探讨一些人工智能可以应用的方向。

1 建立灾备大数据,将容灾相关的CMDB、状态指标、性能指标等全部管理起来,通过人工智能实现异常检测,根因分析等智能运维场景,让管理者更洞悉容灾运行情况。

2 建立灾备知识图谱,建立异常影响模型,通过人工智能分析故障产生的影响范围和解决方案。

3 动态资源调配,根据系统重要性,性能压力等多方面因素,建立资源调配模型,优化网络带宽的使用情况,保障重要系统可用性。

4 中心资源规划,依据历史发展趋势,建立预测模型,为数据中心扩容提供决策。

其实人工智能就是一种分析方法,只要在工作中依据实际需求,挑选合适的技术方法,那么就能够实现运维能力提升。


于志轩 兰州大学第一医院架构师

假使人工智能系统自动的对故障点进行预判,在即将发生灾难故障之前进行系统的容灾恢复,则可以直接避免因灾难发生导致系统短暂的服务停止和业务数据丢失。


数据中心的超级计算机,可以模拟人类发出声音,可以随时随地监控整个数据中心包括软硬件的运行状态,在发现有人要破坏数据磁盘时,还能为了保护自己,调动机械臂来攻击人类。这是电影《鹰眼》中的片段,片中的超级人工智能计算机不但能够通过数据中心中的海量数据进行分析,做出决策,还能够对核心系统进行保护。这虽然是科幻,但是在未来有很大的概率会成为现实。

随着计算机技术的发展,以及近年来人工智能领域成果的不断出现,一些传统的计算机信息系统也开始采用智能化的技术来应对诸如监控,网络安全,数据分析以及容灾等方面的挑战。人工智能作为计算机科学研究的一个分支,从诞生之日起就令无数计算机从业者以及大众为其着迷。人们期望计算机能够拥有人类的智慧,自主的去思考,分析问题,给人类带来决策的支持,并自动化的协助人类去完成较高难度的工作。特别是近十年来,在深度神经网络技术的出现背景下,又将人工智能的研究和应用推向了一个新的高度。

在各行业都在争先恐后的采用人工智能的相关技术进行应用的同时,我也进行了思考,在系统架构,特别是系统容灾架构层面能否使用人工智能的相关技术来进行辅助,解决靠人工无法解决的容灾需求。近年来人工智能的一些应用实例得益于机器学习和基于神经网络的深度学习的发展,依托大规模数据的模型训练而完成一些分类、聚类、预测、识别、决策判断等任务。那么在信息系统容灾中我们如何将人工智能应用其中呢?

首先明确,信息系统、数据中心容灾包含数据的安全、网络的安全、机房环动系统的安全三个环节,每个环节的要求都不一样。比如,国际上对数据的安全要求从0级开始到6级有7个保护级别,特别是最高的6级,可以实现0数据丢失率,被认为是灾难恢复的最高级别。在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。由于灾难发生的故障点是随机的,数据中心通常需要一些监控系统,只能在故障发生时 者发生之后才能检测到。假使人工智能系统自动的对故障点进行预判,在即将发生灾难故障之前进行系统的容灾恢复,则可以直接避免因灾难发生导致系统短暂的服务停止和业务数据丢失。

其次,在业务系统的网络安全中,将人工智能应用在网络流量监控、网络攻击预判、流量数据分析等方面,结合网络安全态势感知技术可以很好的分析出网络中潜在的攻击行为、潜在的安全隐患。

对于人工智能在业务网络中的应用,还可以智能分析网络中的数据,提供有关管理决策的信息,诸如规律的数据流量的强度可以智能分析出业务的使用高峰时段,判断不同业务数据的流量强度进而判断业务的重要程度。

对于数据中心机房的环境动力系统,人工智能也可以进行应用。环动系统需要对机房的实时情况进行监测,电压、电流、温度、湿度、消防器材压力,更有甚者,特殊环境下的地板压力等。这会产生大量的环动数据。利用人工智能的方法,对环动数据分析,可以智能的自动对机房环境变化做出响应。在电影中人工智能计算机的攻击行为,实际上也就是在环动系统中保护系统的容灾行为。


结束语

人工智能可以在容灾领域多个方向上得到应用,推动灾备建设和管理能力的进一步提升。在实际工作中,灵活根据企业IT需求选择合适的人工智能技术搭建人工智能容灾平台才能保证业务的稳定高效。


阅读更多《迈向YB数据时代》精彩内容,请识别以下二维码


《迈向YB数据时代》

数据,作为企业最核心的战略资产,正在由于规模越来越大变成一只令人恐怖的怪兽。在人类数据应用规模即将进入YB时代的当下,如何存好、用好、管好海量数据成为大中型企业普遍面临的巨大挑战。《迈向YB数据时代》,由twt社区和华为存储用户俱乐部联合主办,凝结中国一线用户中应用创新技术专家的具有代表性、前瞻性的技术洞见、实战经验、同行共识,从趋势、架构、实施和运维四大方向,为中国大中型企业应对数据及存储管理中的重大应用挑战提供代表性的参考指南。“乘众人之智,则无不任也;用众人之力,则无不胜也。”让我们一同携手,从容迈向YB数据时代!

《迈向YB数据时代》2022年春季刊以数据容灾为主题,集二十多家从事企业科技战线的各路精英之学识经验,围绕数据容灾备份这一黄金战甲,以精益架构、集成实施、持续运维、趋势动态四个栏目展开,每个栏目又分为若干业内同行认为亟待解决的议题,每个议题中各位同行专家从不同维度充分剖析诠释,同时以朴实敦厚而又精炼有序之论给予解决思路和方法。我们在此将春季刊的内容进行连载放送,希望可以为企业同行提供容灾备份战线上的参考,更希望可以成为集结八方同道之号角。

【点击图片阅读春季刊】
↓↓↓

【夏季刊已发布,点击图片了解详情】
↓↓↓

点击标题阅读往期连载
  • 2022年春季刊【持续运维】议题二 生产和同城存储双活架构下,发生脑裂问题影响数据库读写,如何快速分析问题和解决问题?

  • 2022年春季刊【持续运维】议题三 生产和同城存储容灾架构下,同城站点非存储层数据 配置如何与生产站点保持一致性?


点击 ,到社区原文下与更多同行交流探讨

*本 所发布内容仅代表作者观点,不代表社区立场

小羊羔锚文本外链网站长https://seo-links.cn 
回复列表
默认   热门   正序   倒序

回复:人工智能技术如何应用于容灾领域?未来有哪些应用方向?|《迈向YB数据时代》

Powered by 小羊羔外链网 8.3.11

©2015 - 2024 小羊羔外链网

免费发软文外链 鄂ICP备16014738号-6

您的IP:18.118.200.86,2024-04-18 23:21:58,Processed in 0.05321 second(s).

支持原创软件,抵制盗版,共创美好明天!
头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息