存储跨数据中心双活必然需要跨中心的链路作为双活的通讯介质。此时,通讯不但要求高可用性和冗余度,而且对通讯质量的要求也很高。并且链路所带来的风险隐患又是巨大的,中断 者响应时间高都将可能导致双活集群发生脑裂仲裁,出于保护的目的,将IO HANG住一段时间,将所有没有落入磁盘的数据全部刷盘,才能在某个存活的站点继续恢复读写访问。所以阻碍存储跨中心双活技术发展的最直接的因素就是双中心间链路不可控。因此,在出现链路故障问题时,快速发现问题,准确定位问题根因,以及快速恢复、应急处置问题尤为关键。本议题将探讨生产和同城存储双活架构下,发生链路抖动影响业务性能,如何快速发现问题、分析问题和解决问题。
本期为大家带来《迈向YB数据时代》2022年春季刊“持续运维”栏目中的议题一
生产和同城存储双活架构下,发生链路抖动影响业务性能,如何快速发现问题、分析问题和解决问题?
社区专家主张
议题主编 邓毓 江西农信运维技术经理 本议题由北京农商行存储架构师刘振国和某大型保险存储管理员程良良两位专家分别论证链路问题的解决思路,链路问题的实际解决案例,帮助同行遇到类似的链路问题时,能够沉着应对。文中涉及到的解决思路及具体解决方法得到了某农商银行架构师胡海光及本人的认同,最终达成一定共识供同行参考。
刘振国 北京农商行存储架构师
对于链路的问题,就是要第一时间发现问题和隐患,而全方位多层次的监控无疑是最好的手段。
在存储同城双活 同步复制的架构下,由于IO是需要跨数据中心做一个往复才可以完成,才可以把一个IO的完成信息最终反馈给前端业务,因此这种架构对两中心之间的链路稳定性要求还是非常高的。
为了及时发现链路抖动,可以通过在不同层次部署监控以便尽早发现隐患。一个是在应用层部署监控,对耗时超时的交易进行监控,从而辅助技术人员后续分析。另外就是在基础设施层部署监控,比如通过同城波分设备连接的光交上部署类似博科的MAPS监控,可以重点关注CRC Errors、ITW(Invalid Transmit Words 、Protocol Errors、Link Reset 者C3 Time-Outs等端口错误计数,对链路超时复位 者链路问题导致的传输错误等指标计数进行监控,当计数达到设定的阈值时,可以触发告警,发送RASLOG日志和SNMP告警给监控系统, 者是通过设置故障隔离的措施自动禁用问题端口。再者,就是存储设备自身的监控和处理策略。实际上,不同的存储双活系统都会有类似的业务连续性保障的设置,当双活两端写时延差值大于断开阈值时,系统会自动断开双活pair,优先保障业务性能。阈值也是可以按照实际的业务场景进行调整的。对于基础设施层部署的监控所采用的阈值策略,没有通用的标准,每个特定使用场景都有一把适用的标尺。需要在默认策略基础上,通过长时间的运维实践和监控,逐步构建趋于合理的阈值基线。
总之,对于链路的问题,就是要第一时间发现问题和隐患,而全方位多层次的监控无疑是最好的手段。对于问题发现后可以采用告警 自动干预类似禁用端口 者断开复制的措施优先保障业务连续性。
程良良 某大型保险存储管理员
如使用存储链路抖动 远程数据传输到本地未及时交互完成都可能会出现磁盘busy 增高情况,磁盘IO延时会增大,操作系统查看到的只是问题的表象,根因需要检查后端的光纤链路、光纤交换机等。
链路抖动是指物理接口在至少10秒的时间内持续上升和下降,每秒三次 更多次。常见原因通常与电缆损坏、不受支持 非标准电缆 小型封装热插拔(SFP) 其他链路同步问题有关。链路抖动的原因可能是间歇性 永久性的。
链路抖动通常是物理干扰,因此要采取相应的方式和步骤来诊断和防止以及解决。
问题现象
以数据库主机为例,在出现链路抖动时数据库磁盘链路有异常,IO延迟大,影响数据库的访问,生产业务受到影响。出现此问题需要按照架构层次进行排查,先排查上层操作系统出现的现象,再根据现象进行排查存储、光纤交换机、光纤线缆收发光、光纤模块是否存在问题。
问题处理过程
操作系统排查
在系统中,如使用存储链路抖动 远程数据传输到本地未及时交互完成都可能会出现磁盘busy 增高情况,磁盘IO延时会增大,正常情况下磁盘的响应时间应在10毫秒以下,操作系统查看到的只是问题的表象,根因需要检查后端的光纤链路、光纤交换机等。以AIX操作系统为例(如图2所示 。
▲图2 磁盘响应
存储排查
排查存储上对应端口的误码情况。排查方法 根据告警信息确认存储端口,如华为存储告警信息是The link between the initiator (type FC, identifier 0x10000000c995b100) of the host(name hostname) and the host port (Engine0, interface module A2, port number P0) is unstable.表示引擎0的A2扣卡上P0 和FC端口与主机连接不稳定。
登录DeviceManager主界面“首页”>“管理硬件设备”>“监控控制器”>“管理FC接口模块”的操作提示,清除所有FC端口误码统计。如下图3所示
▲图3 存储设备管理界面
系统运行一段时间(如1小时 后,重新查看告警内容中的端口的“线路误码统计”增长情况。若误码增长速度较快,可通过尝试更换该端口对应的线缆、模块单元,甚至改用其他端口来确认误码消除情况。
光纤交换机排查
排查交换机上的误码增长情况。以博科和SNS系列交换机进行说明,登陆交换机的CLI命令行,通过CLI命令statsclear和porterrshow清除和查看当前误码情况。
▲图4 SAN交换机误码统计
运行一段时间(如1小时 后重新使用CLI命令porterrshow查看端口统计情况。若enc in和enc out增长速度较快,可通过尝试更换该端口对应的线缆、模块单元,甚至改用其他端口来消除误码。
总结
在操作系统出现磁盘性能问题后,根据现象检查光纤交换机和存储的误码情况,更换线缆、光纤模块等操作后检查问题是否解决。如检查各项都在正常范围且无硬件告警,说明底层硬件没有问题,可以检查端口流量是否跑满;如端口已经跑满说明业务系统流量较大,如数据库在跑大的查询,建议可以优化SQL和检查索引是否添加等。在底层架构无法进行优化的情况下考虑对上层业务层面进行优化,缓解压力。
用一个实例来说明链路问题的解决思路及具体方案,无疑是运维道路上最有力的帮助。但运维路漫漫,出现链路问题的场景远不止文章中的那些。在此,呼吁更多的同行,能够将遇到的链路问题整理形成文档,供同行们参考借鉴,在今后的运维路上遇到此类问题,可以及时扫清障碍,维护系统稳定。
阅读更多《迈向YB数据时代》精彩内容,请识别以下二维码
《迈向YB数据时代》
数据,作为企业最核心的战略资产,正在由于规模越来越大变成一只令人恐怖的怪兽。在人类数据应用规模即将进入YB时代的当下,如何存好、用好、管好海量数据成为大中型企业普遍面临的巨大挑战。《迈向YB数据时代》,由twt社区和华为存储用户俱乐部联合主办,凝结中国一线用户中应用创新技术专家的具有代表性、前瞻性的技术洞见、实战经验、同行共识,从趋势、架构、实施和运维四大方向,为中国大中型企业应对数据及存储管理中的重大应用挑战提供代表性的参考指南。“乘众人之智,则无不任也;用众人之力,则无不胜也。”让我们一同携手,从容迈向YB数据时代!
《迈向YB数据时代》2022年春季刊以数据容灾为主题,集二十多家从事企业科技战线的各路精英之学识经验,围绕数据容灾备份这一黄金战甲,以精益架构、集成实施、持续运维、趋势动态四个栏目展开,每个栏目又分为若干业内同行认为亟待解决的议题,每个议题中各位同行专家从不同维度充分剖析诠释,同时以朴实敦厚而又精炼有序之论给予解决思路和方法。我们在此将春季刊的内容进行连载放送,希望可以为企业同行提供容灾备份战线上的参考,更希望可以成为集结八方同道之号角。
2022年春季刊【集中实施】议题一 存储双活实施中如何通过第三方仲裁机制避免脑裂发生?
2022年春季刊【集中实施】议题二 存储双活的实施方案中,如何正确认识多路径软件和配置的注意事项?
2022年春季刊【集中实施】议题三 存储双活架构下,如何消除本地数据中心的存储单点故障风险?
2022年春季刊【集中实施】议题四 通过存储同步数据复制技术实现的同城灾备,如何彻底规避逻辑故障风险?
点击 ,到社区原文下与更多同行交流探讨↙↙↙
*本 所发布内容仅代表作者观点,不代表社区立场
Powered by 小羊羔外链网 8.3.12
©2015 - 2024 小羊羔外链网
您的IP:18.220.106.241,2024-04-25 04:50:50,Processed in 0.05084 second(s).