收藏文章 楼主

某银行核心业务双活存储架构升级建设实践分享

版块:IT/互联网   类型:普通   作者:小羊羔links   查看:397   回复:0   获赞:0   时间:2022-08-23 23:07:55
【导读】某银行在数据中心生产环境中首次使用华为高端存储设备替换原来的存储设备,构建起该银行新的同城双活数据中心双活存储架构。本文简要介绍了项目背景,存储设备选型的思路、存储架构设计方案、升级替换的经验和风险控制的几个要点。笔者希望通过本文与银行同业们分享一点关于使用华为高端存储设备构建双活存储架构的经验,为促进我国银行业技术水平提升和新技术应用贡献一点微薄之力。

【作者】铁兵,目前供职于国内某城商行科技部,擅长商业银行数据中心基础架构的管理、设计和规划工作。


一、项目背景

某银行在2014年建设数据中心时采购了2套存储设备,当时容量规划满足是3至4年的需求,可用容量为45T,预计存放300台虚拟机的数据,这些虚拟机运行着除核心系统以外的所有关键业务。由于这两套存储设备已经上线运行了五年多时间,存储设备的存储空间使用率都接近80%安全值,因此我行启动双活存储设备升级替换采购项目,采购两套新存储设备替换现网两套存储,并将核心业务的业务虚拟机和文件系统迁移至新采购的两套上运行。通过新老存储的替换,满足我行未来数据增长和业务发展需求。


二、存储架构技术路线选型和功能测试

(一 技术路线选择

我行在2014年通过两套存储设备构建的银行数据中心同城双活的高等级灾备体系架构,对于重要信息系统的安全稳定运行起到了关键作用。该套双活存储的灾备架构经受了各种考验,包括单台光交机故障、裸光纤光衰异常等情况下也没有影响生产主中心的系统运行。双活存储架构降低了日常运维成本,各系统只需要维护一套生产环境,避免了人为运维灾备失效时导致无法切换的问题。

因此,我行通过灾备技术的跟踪和对比,计划未来继续在数据中心采用双活存储的解决方案来构建开放平台的数据中心业务连续性架构体系。

(二 存储功能测试

(1 调研存储厂商

我行在调研主流存储厂商时,重点关注同城双活案例数量、是否支持对称双活、是否支持NAS、产品关键功能和厂商报价等多个方面,选择了存储业界主流厂商华为、EMC、HDS、HP等进行调研和交流,并开展严格的POC测试。

(2 设计测试案例和场景

我行根据近几年双活存储的实际运维经验以及双活存储的设计原理制定了全面的测试用例,常见的用例有 主机层、存储层少量链路中断,一台存储的单个引擎故障,主备中心的一条复制链路中断等;极端情况下的用例有 主备中心任一台存储完全故障,主备中心的所有复制链路中断,主机出现APD(所有路径丢失 故障,主机出现PDL(连接存储路径永久丢失 故障,以及存储和仲裁同时故障等这些日常运维中不常见但有可能出现的场景。对所有故障测试场景都是采用直接断电的形式进行,最大程度的模拟突然停电等极端情况。测试包含硬件冗余性测试和性能测试。硬件冗余性和性能测试又分别包括单存储和双活存储的测试。测试内容如下

编号

测试内容

1

访问CIFS共享

2

访问NFS共享

3

NAS双活的创建和删除

4

NAS双活主从切换

5

本地LUN和双活LUN的性能测试

6

双活LUN扩容

7

双活优先站点存储故障

8

双活非优先站点存储故障

9

站点间FC拉远传输链路单链路故障

10

站点间FC拉远传输链路全部故障

11

仲裁服务器故障

12

仲裁服务器和优先站点存储同时故障

13

仲裁服务器和非优先站点存储同时故障

14

非优先站点存储和仲裁服务器同时故障

15

优先站点存储和仲裁服务器同时故障

16

非优先站点存储业务端口故障

17

优先站点存储业务端口故障

18

非优先站点存储到仲裁服务器链路故障

19

优先站点存储到仲裁服务器链路故障

20

仲裁服务器链路全部故障

21

双活存储复制链路单链路故障

22

双活存储复制链路全部故障

23

虚拟机APD

24

单存储NMP和Ultrapath多路径性能对比

25

双活存储NMP和Ultrapath多路径性能对比

26

日志服务器系统性能测试

27

数据仓库业务系统性能测试

28

重删压缩性能测试

29

控制器故障测试

30

电源模块故障测试

31

SAS级联线缆故障测试

32

硬盘框级联模块故障测试

33

接口模块故障测试

34

硬盘故障测试

(3 POC测试结论

通过POC测试,当前主流存储厂商基本都通过了上述功能和用例场景的测试,不同厂商的产品,在测试中表现的效果也有一些差异。

(三 招标采购

通过公共招标,最终华为公司的OceanStor 18000系列高端存储选型中标了我行的存储升级扩容项目。

以下章节将介绍我行使用两套华为存储OceanStor 18000系列高端存储设备,替换老的存储设备,创建新的双活集群,建立双活容灾机制,保障我行的业务连续性。


三、存储架构方案设计

(一 双活存储组网架构

下图是我行使用两套华为高端存储设备在两个数据中心之间构建双活存储架构图

1、四台光纤交换机两两级联,并承载主机到存储的通信(块业务 。

2、两套华为Oceanstor 18000系列高端存储之间通过光交交换机互联,承载心跳通信和数据同步。

3、两台10GE以太网交换机和与现网VMware仲裁业务网络打通,组成仲裁网络,当两端存储系统间链路故障 设备故障时,由仲裁服务器根据仲裁结果决定由哪一端存储继续向主机提供业务。仲裁服务器配置两个网口,分别处于不同的网段,一个网口与两套华为OceanStor 18000系列高端存储的L1M0P0/L1M1P0/R1M0P0/R1M1P0网口通信,另一个网口与两套华为OceanStor 18000系列高端存储的L1M0P0/L1M1P0/R1M0P0/R1M1P0网口通信。

(二 存储划分规划

生产数据中心双活存储华为OceanStor 18800F V5高端存储初步规划SAN业务使用约253T(RAID6 空间。

同城数据中心另一台双活存储华为OceanStor 18800F V5高端存储初步规划SAN业务使用约253T(RAID6 空间,分别创建用于生产数据中心存储进行双活容灾。


四、实施经验及难

(一 制订应用系统迁移计划

为了顺利完成新存储设备的升级替换,做好应用系统的迁移计划是非常重要的。

我行制订了应用系统规则 先边缘业务到核心业务、先简单到复杂、宿主机资源合理利用、目标存储资源合理利用等原则。在此原则基础上列出了业务迁移详细计划,主要包括两个阶段进行,第一阶段是迁移管理类业务,第二阶段是迁移在线交易类业务。我们制定了首套搬迁业务为日志服务器系统,二套搬迁数据仓库业务系统。在完成了首套和二套业务系统的搬迁,验证了业务搬迁的可行性后,按照虚拟机的业务级别进行搬迁。以我行应用系统分类为基准,依次搬迁四类业务、三类业务、二类业务、一类业务。每次搬迁结束预留一周的观察时间,确认业务运行稳定后再进行下一次的业务搬迁。

(二 实施数据迁移

(1) SAN存储数据迁移

SAN存储的迁移主要涉及VMware虚拟机的迁移。对于VMware虚拟机的迁移,使用VMware自身的Storage vMotion功能,Storage vMotion迁移对上层虚拟机和业务没有影响,能够平滑迁移,而且使用VMware多路径,避免了主机停机。迁移之前在华为OceanStor 18800F V5系列高端存储上按照之前VMware各集群Datastor的大小划分目标Lun大小,挂载到VMware主机下,开始进行vMotion迁移。

(2) NAS存储数据迁移

NAS迁移借助于MigrationDirector for NAS 存储数据迁移工具来完成,MigrationDirector for NAS可实现不同存储系统之间的数据迁移,保障迁移过程中的数据安全,同时也避免业务在迁移过程中长时间停机。完整的迁移过程至少包含1次迁移任务(首次迁移 和1次同步任务(增量数据同步迁移 ,业务切割前需要离线进行最后一次同步。

(三 存储运行状态监测

1、在项目实施过程中,我们重点对两套华为OceanStor 18000系列高端存储进行了深度巡检,检查存储的运行状况和稳定性,及时对存储进行热补丁的升级,保障新存储设备上线后稳定运行。

2、在数据迁移中和数据迁移完成后,我们对核心存储OceanStor 18800F V5进行了性能分析,并输出了性能分析报告,监测OceanStor 18800F V5在迁移过程中和数据全部迁移完成后的性能表现,都达到了预期的目标。

3、我们部署DME和eservice管理监控工具来管理和监控存储运行状态,及时获取存储告警异常信息。

4、在新存储设备上线后,我们还每季度定期对存储进行巡检,了解存储的运行状态。


五、风险管理

将数据中心生产环境使用华为高端存储升级替换原核心存储是本行非常重大的升级操作。本行是首次在数据中心核心关键区域使用华为高端存储设备替换原国外的存储设备,并且实现双活数据中心架构,存在较大的操作风险和运行风险。

为了避免在核心存储升级替换过程,以及后续使用过程中因新的存储设备自身问题引起业务中断等风险,本行认真梳理了该升级替换项目可能存在的风险,并采取了相应的风险控制措施

1、开展充分的技术测试和功能验证。本行制订了详细和周密的技术测试方案和功能验证方案,并且还搭建了接近生产环境实际情况的测试环境,用以验证新存储设备的各项技术指标和功能指标。

2、采用稳妥的迁移替换策略,包括应急预案和切实可行的回退方案。要重点关注新设备上线后的设备故障风险,要做好新存储设备上发生数据丢失等极端突发情况的预案。

3、实施前务必要做好环境调研和项目规划工作。本次项目共历经现网情况调研,功能测试,存储网络改造,项目实施,数据迁移五个阶段,前两个阶段所用工时只占到整个交付过程的1/3,但却是最重要的阶段,根据收集到的正确现网信息,对做出正确的规划有指导性的意义。

3、认真细致的变更操作,重点是要在应用系统在迁移前后,分别做好数据分析和记录,要对比迁移前后的数据,及时做好参数优化和方案调整。

4、有效的项目管理。重点要做行内和厂商的人力资源调配,以及组织和协调工作。


六、总结

我行在数据中心生产中首次使用华为高端存储设备替换原来的设备,构建起新的同城双活数据中心双活存储架构,解决了原双活存储空间不足和原存储设备老旧等问题。 

我行新采购的华为OceanStor 18000系列高端存储上线后,存储的性能稳定,存储端压力正常,读写时延正常。通过迁移后的的虚拟机性能基线分析,在性能和稳定性上都有了明显提升。

我行成功实现在生产核心上使用华为高端存储替代国外存储设备,在银行数据中心构建双活存储架构。目前已经稳定运行一年多时间,各项关键参数和指标运行正常。本次项目的成功上线,使我们更加坚定在银行核心业务上使用国产存储产品和技术。

如有任何问题,可点击文末 ,到社区原文下评论交流

觉得本文有用,请转发 点击“在看”,让更多同行看到


  /文章推荐

  • 银行核心系统基于华为高端 NAS 存储双活实践

  • 银行数据中心高端存储选型的方法论和经验分享

  • 企业容灾架构选型解析(三 脑裂问题探讨


欢迎关注社区 "存储" 技术主题 ,将会不断更新优质 、文章,您也可以前往提出疑难问题,与同行切磋交流。地址 https://www..com/Topic/179


下载 twt 社区客户端 APP


长按 即可下载

到应用商店搜索“twt”


长按二维码关注

*本 所发布内容仅代表作者观点,不代表社区立场;封面图片由版权图库授权使用 

小羊羔锚文本外链网站长https://seo-links.cn 
回复列表
默认   热门   正序   倒序

回复:某银行核心业务双活存储架构升级建设实践分享

Powered by 小羊羔外链网 8.3.11

©2015 - 2024 小羊羔外链网

免费发软文外链 鄂ICP备16014738号-6

您的IP:3.145.191.214,2024-04-20 20:28:38,Processed in 0.05046 second(s).

支持原创软件,抵制盗版,共创美好明天!
头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息