技术博客

技术博客  >  VMware替代关键技术:超融合存储中的外置存储链路亚健康检测与隔离技术
VMware替代关键技术:超融合存储中的外置存储链路亚健康检测与隔离技术
背景图 2025-04-24 15:34:41

领跑AI品牌banner

外置存储作为超融合存储的关键部分,既能优化数据读写,提升处理效率,还可灵活扩容,适配业务持续增长的存储需求,其健康状态直接牵系着系统运行的稳定性——

当医院影像传输出现 10 秒以上延迟,可能延误关键诊断;银行交易日志同步频繁卡顿,或将导致数据处理异常;制造企业设计图纸加载持续转圈,难免拖慢研发进度······这些看似偶然的"卡壳"现象,背后往往是外置存储链路亚健康在“作怪”。

外置存储链路暗藏亚健康 性能与效率的 “绊脚石”

维护链路健康,是保障数据流畅流转、业务高效运转的关键所在。为增强存储访问的冗余性和可靠性,业界普遍采用多路径 I/O 技术,实现负载均衡和故障切换。

然而,理想很丰满,现实却很骨感。在实际运行中,单条路径的亚健康状态可能会导致整个存储 LUN(逻辑单元号)设备的访问性能下降

  • 负载均衡模式下,亚健康链路会拉低正常路径的 IOPS 效率,导致整体性能失衡;
  • 在主备模式中,主路径的隐性延迟则会直接造成业务访问卡顿。更糟糕的是,由于备用路径的检测机制滞后难以及时接管,从而使业务连续性受到严重影响。

面对外置存储链路亚健康带来的诸多挑战,深信服超融合HCI6.11.1创新推出「外置存储链路亚健康检测与隔离技术」,精准解决多路径 I/O 中的性能隐患。

核心技术 构建「监测 - 隔离 - 恢复」全闭环

深信服超融合在外置存储链路管理中,通过 “精准监测异常→智能隔离风险→动态恢复链路” 三大核心模块,形成全流程健康防护体系。当系统检测到外置存储设备出现卡顿或性能下降时,会立即触发告警并启动隔离机制,避免亚健康链路影响业务。

相比传统方案(如 eBPF 的 kprobe 技术、内核 diskstats 功能),深信服直接在系统内核进行程序修改,资源占用低,检测精度高,对系统性能影响微乎其微。

外置存储链路亚健康检测与隔离架构图

外置存储链路亚健康检测与隔离架构图

具体来看三大核心模块如何协同工作——

毫秒级时延监测,精准定位异常链路

在数据读写过程中,系统通过慢IO监测与IO卡顿监测两种机制,构建多层次异常检测体系。

1. 慢IO监测:毫秒级时延追踪

  • 原理:记录每次 IO 操作的起始时间(P1)与完成时间(P2),用两者的时间差计算读写耗时,与预设阈值(默认 512ms,用户可自定义修改范围)对比。若读写延迟超过限时,系统记录时间、硬盘、数据区域等信息(每 5 秒最多记录 1 条日志,同时可临时关闭该限制)。
  • 判定机制:支持灵活配置按统计周期(30 秒 - 30 分钟)分析,若外置存储盘超阈值操作占比≥50%,自动触发告警或隔离。

2. IO卡顿监测:内核级超时捕获

  • 原理:在系统内核处理数据读写超时函数中,增加程序逻辑,未按时返回的请求计数为 “卡盘”,通过/proc/iostuck_stats实时查看分区卡盘状态。
  • 告警机制:告警程序每 10 分钟扫描卡盘计数变化,即时通知用户异常。

智能隔离策略,平衡可靠性与可用性

● 平均时延,高低时延差超阈值(50% of 512ms)时,隔离异常路径;对于单主路径和策略分级:针对复杂场景(多主路径 /多备用路径/负载均衡),系统计算所有路径多条备用路径,一旦出现时延异常立即隔离。

● 隔离原则:隔离时保留至少 50% 可用路径且不少于 1 条,避免过度隔离导致链路冗余失效。

● 操作闭环:隔离时标记路径为不可用,设备离线;恢复时自动清除禁用设置并重新扫描,无需人工干预。

深度扫描恢复,保障链路资源动态更新

当IO链路因故障或高时延被隔离,深度扫描功能随即启动:

清除无效路径:删除多路径服务程序标记的不可用链路;

设备重连验证:通过 LUN ID 列表扫描存储设备,重建内核中缺失的路径设备;

效果:清理存储映射变更残留的无效路径,恢复已“自愈”且禁用中的高时延链路,保障链路资源动态更新。

功能远超友商 灵活适配多样需求

与友商产品对比,深信服超融合HCI 6.11.1 新版本在功能上更具优势。

友商产品对比

1.在链路监测方面

深信服超融合广泛支持FC、iSCSI等常见外置存储链路的时延监测,相比部分友商产品链路监测协议覆盖不全的情况,能够更全面地满足不同用户的存储架构需求。支持单一的处置方式或不支持亚健康隔离。

2.在配置灵活性上

允许用户根据自身业务特点和需求,对时延监测的各项参数(时延阙值、监测周期)进行灵活多样的配置。而友商产品往往在配置方面存在一定的局限性,难以做到如此精细的个性化设置。

3.在异常处置方面

深信服不仅提供了丰富多样的处置方式,还兼顾了自动化和手动隔离两种模式。这种灵活的处置方式,充分满足了不同用户在不同场景下的多样化需求,而许多友商产品仅支持单一的处置方式或不支持亚健康隔离。

深信服外置存储链路健康技术通过 “监测 - 隔离 - 恢复” 闭环,可有效保障外置存储链路稳定运行,显著提升数据存储可靠性和业务运行效率。未来,深信服将持续深耕超融合技术,以更智能、更高效的解决方案,助力企业应对数字时代存储挑战。

分割线

云话技术是深信服打造的一档云技术内容专栏,将定期为大家推送云计算相关的技术解析、场景实践等内容,为大家深度解析深信服在云计算领域的创新能力、技术动态、场景应用及前瞻分析等内容。