收藏文章 楼主

通过存储同步数据复制技术实现的同城灾备,如何彻底规避逻辑故障风险?|《迈向YB数据时代》

版块:IT/互联网   类型:普通   作者:小羊羔links   查看:203   回复:0   获赞:0   时间:2022-08-18 21:44:14

传统集中式存储的远程复制技术,通常有同步和异步两种技术,存储的同步复制技术多用于本地 者距离较近的两个数据中心,同步复制技术可以尽最大可能保证两个存储数据的一致性,通常应用在对RPO要求比较高的环境中,高端大厂的存储可以做到RPO=0。同时因为这种特性,两个存储数据要一致,一个存储的数据的任何改变,另一个存储也会随之改变。通过存储同步数据复制技术实现的同城灾备,如何彻底规避逻辑故障风险?



本期为大家带来《迈向YB数据时代》2022年春季刊“集成实施”栏目中的议题

通过存储同步数据复制技术实现的同城灾备,如何彻底规避逻辑故障风险?


议题主编 某金融科技公司高级技术主管 张鹏

在如下对存储复制技术原理一致的理解下,本议题由自贡银行存储架构师夏再红、北部湾银行技术经理哲哲蛙(笔名 、宁夏银行技术经理陈明福针对议题的不同关键点进行了主张。主张在经过成方金融信息技术服务有限公司高级工程师贺东杰和本人的复议,最终达成一定的共识供同行参考。


基于存储底层的块复制技术,无论复制方式是“同步、异步、双活”还是“连续性数据保护”,都是基于存储数据块级别的复制技术,复制源端在可读时,会将块中的数据拷贝一份至目标端,它跟上层的应用层关系不大,主要是依靠存储层两个节点来完成源到目标的复制。

图1 存储复制技术原理图

当上层应用将数据写入存储的时候,那么由存储将这一I/O请求再以块的方式传输到另外一个存储上,从而保证存储设备在块级别上的一致性副本。对于“同步复制”而言,需要应用端的I/O请求等到存储层的复制完毕之后才会正常返回,对于“异步复制”而言,应用I/O请求跟底层复制没有任何关系,不需要等待复制结果。对于这种复制技术来讲,两个数据副本仅仅是数据内容相同,在上层没有任何逻辑捆绑 者是虚拟化,所以上层应用也是完全隔离的两套应用,一旦存储发生故障,无论上层应用节点及网络节点是否可用都需要发生站点级切换实现业务连续性,存储本身不能隔离开应用发生切换。对于物理存储层面的块复制技术,它剥离了对上层应用的依赖,直接靠存储来完成数据复制,优点在于它架构相对简单、相关影响面较小,缺点在于它的功能狭窄,功能仅仅在于数据的拷贝,对于上层应用的支撑面很窄。

基于存储数据同步复制技术确实存在着局限性,是不能防止逻辑层的故障的,包括数据库 文件系统坏块,人为误操作甚至存储自身的一些BUG导致的灾难场景。


夏再红 自贡银行存储架构师

规避逻辑措施有两种维度“时间维度”与“空间维度”。“时间维度”可以有多重途径来实现,采用“空间维度”主要是持续性创建多副本机制。


在容灾建设中常用存储复制技术实施数据容灾,能有效避免设备故障带来数据损坏,逻辑数据错误难于风险规避。

存储同步复制主要基于存储自身写I/O捕获实现块级别应用,从而保证主从设备数据一致。存储复制多用于传统单体架构场景,能有效保障数据库 者应用正常启动。结合传统HA架构 者冷备中能有效保障系统同机房 跨机房容灾。存储同步有两种情况,一种是单向型复制,具有主从关系;另一类是双向型的复制均为Active模式都能实现存储写及I/O同步。

常见灾难场景应用 同城双机房内实现存储设备容错、容灾。在生产实践中主要面临两类情况。一类是传统使用方式,主机房存储数据用于生产服务,灾备机房复制数据常用于冷备,当主机房存储故障后灾备接管服务。另一类是同步复制数据同时使用,主要是双活数据库例如Extend RAC环境。以上两类情况均能实现存储系统故障后灾备接管,RPO均可实现为“零”。但存储同步是一种底层复制容灾保障技术,面对上层的数据逻辑操作的逻辑删掉的故障无法解决。

规避逻辑措施有两种维度“时间维度”与“空间维度”。结合生产经验分析,“时间维度”可以有多重途径来实现,该方式成本较低,定时存储快照技术与存储异步延迟复制技术结合使用,适用于RPO要求较低的业务系统。实施手段是在灾备端采用存储延迟异步模式,并在灾备端存储上定时快照拉长了数据落地时间区间,当面临问题后从快照取回数据。采用“空间维度”主要是持续性创建多副本机制,实施手段两种,一种是基于硬件CDP块捕获技术实现数据副本,数据保护RPO接近0,可满足绝大部分应用,缺点是硬件维护难、能耗高、 入高、利用率低,优点环境一致性强;另一种是基于数据库层的日志解析实现数据抄写到虚拟机上,然后对虚拟机实现多副本保护,该解决方案适用于主流数据库可跨平台的复制(数据库自身复制技术,第三方复制技术Y厂商、D厂商、I厂商、S厂商 ,优点是成本低,利用率高,维护简单,可实现跨平台;缺点选型测试难,需要全面的架构师把控。

结合我行生产实践经验,当前环境LinuxONE的Zlinux+Oracle实现同城高可用,解决了所有物理故障场景。面临逻辑故障解决思路采用软件方式成本低利用率高。

使用第三方复制软件从备库日志解析到X86虚拟化平台的Oracle。解决了跨平台问题;然后采用RP4VM对所有VM实现数据多副本,解决了逻辑删除故障问题,同时实现生产灾备环境异构,环境异构也可以解决同构的操作系统、文件系统等BUG问题。数据延迟不超过10s。


哲哲蛙 北部湾银行技术经理

对重要系统有必要采用硬件同步+软件同步双保险的方案。


为实现灾备通常在两地三中心采用存储硬件同步技术,存储的逻辑故障是指主中心存储因硬件异常,数据写入时写入了错误的数据,导致部分数据块异常, 者整个LUN异常,通常主中心存储出现逻辑故障后,存储同步软件会将相应逻辑坏块同步至同城以及异地中心的数据块上,此时,同城和异地存储上相应的数据块也将被同步错误数据导致部分数据丢失 者整个LUN数据不可用。如果逻辑坏块上保存的数据是重要数据,则将给用户带来不可估量的损失。

为了避免这类风险发生,我行针对重要系统采用了硬件同步+软件同步双保险的方案。在针对数据库使用的lun配置了存储复制之后,还采用数据库复制技术补充配置软件同步。

针对存储逻辑错误,我们补充了Oracle数据库软件同步方案解决逻辑错误风险,Oracle数据库软件同步方案常见的有ADG和OGG两种方案,我们在生产中采用了ADG+Far  Sync技术。同一数据中心的Rac双节点库以及Far Sync双节点,均使用了不同的物理服务器和不同的存储,进一步加强了数据安全性,可保证数据库数据0丢失。

Oracle Active ADG通过网络从生产向容灾传输归档 redo日志,容灾端恢复方式同步数据,该方式数据同步效率较高,在不同的网络质量条件下提供最大保护、最大可用、最大性能几种模式,正常情况两边数据延迟可认为是准实时。但是当主备库之间网络质量不够优的时候,可能存在数据传输的延时,此时是可能存在数据丢失的。为了保证数据0丢失,引入了Oracle Far Sync方案。

Oracle Far Sync是一项用于降低数据丢失风险的新特性,Far Sync通过在主库(Primary)同机房配置Far Sync实例,主库同步将redo日志,归档日志同步到Far Sync实例,然后Far Sync实例再将redo异步传输到终端备库(StandbyDatabase),一笔交易的读写操作,需同时在Primary库和Far Sync库完成提交后方能完成。同时在主中心两个不同的服务器和存储上写下了两份redo日志带来的是更高的数据安全性,在这样的架构下无论是Primary主库还是Far Sync库的服务器以及存储异常宕机,都不会造成任何的数据丢失。需要注意的是,在此架构下,Primary库和Far Sync库的性能都将直接影响这个数据库系统的性能表现,Primary主库因为需要处理业务逻辑,对CPU以及IO吞吐有较高要求,而FarSync库主要消耗IO性能,对CPU计算能力要求并不高。因此,建议主库以及Far Sync数据库都应采用高性能存储。

图2 多中心数据同步原理图

我行重要业务系统采用了该方案进行风险规避,按照该架构部署实施上线,系统上线后经过一年多的稳定运行,性能以及稳定性均未出现过问题,实践验证该方案是一项较为成熟的存储逻辑错误风险规避的技术方案。


陈明福 宁夏银行技术经理

应用存储复制技术还要辅以本地备份恢复技术及基于数据库逻辑复制技术等多种技术手段来保障数据安全性。


基于存储底层复制的数据库保护技术,当源端数据出现误删、误改、磁区退化数据异变、数据库事物层逻辑错误等数据逻辑性错误时,复制目标端无法检测到这些错误,依旧复制“错误”的数据,导致两份副本都无法正常使用的灾难,无法有效预防逻辑故障。为有效保障数据安全性,采用以下三种技术手段辅助进行数据保护。

基于应用事务日志回放技术

根据数据库软件类型可采用“Oracle Active Data Guard”、“DB2 pureScale HADR” “MySQL主从复制”等基于数据库软件层面的数据库复制技术,通过“实时同步、准同步及异步”等复制方式对数据进行复制保护,当主数据库出现逻辑错误无法正常运行时,可快速切至备数据库,回退到备库前一个日志COMMIT后的版本。

基于本地备份恢复技术

采用TSM、NBU、COMMVAULT等行业主流备份厂商产品建设集中统一的备份系统,根据信息系统的重要性级别制定完善的备份策略(备份时间、备份频率及数据保留周期 ,通过备份系统对数据库做全量及增量备份,在遇到数据逻辑错误时,通过恢复将数据回退到最后一个备份版本。

连续性数据保护技术

采用诸如CDP等“连续性数据保护技术”准/实时对存储数据块做快照,当源端数据出现逻辑故障无法继续使用时,通过快照回退至前一个数据可用版本。

我们要理解容灾方案的场景性,同一个容灾技术方案也会对应着不同的容灾场景。以存储同步复制技术来说,如果我们考虑的是数据冗余的场景,那么源端出现逻辑层故障,冗余端也会失去作用,这肯定是其在数据冗余方面的弱点;如果考虑的是高可用场景 者说是业务连续性场景,以存储双活为代表的数据同步复制技术是有其优势的,不管是本地还是同城双活,既避免单点风险,也简化了高可用切换过程。

同一种容灾方案都有其局限性和特定的适用场景,那么一个完整的容灾方案必然是多种方案的叠加。容灾技术的本质都是资源冗余,多种容灾技术叠加就意味着需要更多的资源。架构设计者都需要综合分析自身的情况下去权衡利弊,在理想方案的基础上做减法,抓大放小,优先补短板。


结束语

在进行容灾体系建设过程中,任何一种容灾方案都有其局限性,存储复制技术只是其中的一个层次,要有多层次的灾难防范机制与技术手段来保障数据的可靠性和安全性,才能应对万难。


阅读更多《迈向YB数据时代》精彩内容,请识别以下二维码


《迈向YB数据时代》

数据,作为企业最核心的战略资产,正在由于规模越来越大变成一只令人恐怖的怪兽。在人类数据应用规模即将进入YB时代的当下,如何存好、用好、管好海量数据成为大中型企业普遍面临的巨大挑战。《迈向YB数据时代》,由twt社区和华为存储用户俱乐部联合主办,凝结中国一线用户中应用创新技术专家的具有代表性、前瞻性的技术洞见、实战经验、同行共识,从趋势、架构、实施和运维四大方向,为中国大中型企业应对数据及存储管理中的重大应用挑战提供代表性的参考指南。“乘众人之智,则无不任也;用众人之力,则无不胜也。”让我们一同携手,从容迈向YB数据时代!

《迈向YB数据时代》2022年春季刊以数据容灾为主题,集二十多家从事企业科技战线的各路精英之学识经验,围绕数据容灾备份这一黄金战甲,以精益架构、集成实施、持续运维、趋势动态四个栏目展开,每个栏目又分为若干业内同行认为亟待解决的议题,每个议题中各位同行专家从不同维度充分剖析诠释,同时以朴实敦厚而又精炼有序之论给予解决思路和方法。我们在此将春季刊的内容进行连载放送,希望可以为企业同行提供容灾备份战线上的参考,更希望可以成为集结八方同道之号角。

【点击图片阅读春季刊】
↓↓↓

【夏季刊已发布,点击图片了解详情】
↓↓↓

点击标题阅读往期连载
  • 2022年春季刊【集中实施】议题一 存储双活实施中如何通过第三方仲裁机制避免脑裂发生?

  • 2022年春季刊【集中实施】议题二 存储双活的实施方案中,如何正确认识多路径软件和配置的注意事项?

  • 2022年春季刊【集中实施】议题三 存储双活架构下,如何消除本地数据中心的存储单点故障风险?

点击 ,到社区原文下与更多同行交流探讨


*本 所发布内容仅代表作者观点,不代表社区立场

小羊羔锚文本外链网站长https://seo-links.cn 
回复列表
默认   热门   正序   倒序

回复:通过存储同步数据复制技术实现的同城灾备,如何彻底规避逻辑故障风险?|《迈向YB数据时代》

Powered by 小羊羔外链网 8.3.7

©2015 - 2024 小羊羔外链网

免费发软文外链 鄂ICP备16014738号-6

您的IP:3.82.3.33,2024-03-29 15:35:45,Processed in 0.04864 second(s).

支持原创软件,抵制盗版,共创美好明天!
头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息