分布式块存储,硬盘亚健康检测的原理是什么?

2024年6月16日15:50:30分布式块存储,硬盘亚健康检测的原理是什么?已关闭评论

硬盘亚健康是指硬盘可以正常运行但性能低于预期的一种状态,导致硬盘亚健康的原因非常多,包括但不限于硬盘自身缺陷、温度、环境(如震动)等。一旦硬盘进入亚健康状态,并且分布式存储软件未进行有效监控和容错,则极有可能会导致上层业务时延增大、IOPS降低等,严重时甚至可能导致主机业务中断。

分布式块存储系统对硬盘亚健康检测的具体流程如下:

(1)系统每隔3秒对硬盘健康状态进行检测;

(2)检测坏道、慢盘、I/O错误、smart信息超标等;

(3)检测 I/O 慢或 I/O 阻塞,在一定时间内,若多个周期硬盘服务时间超过阈值[HDD(Hard Disk Drive,硬盘驱动器)为150ms,SSD(Solid State Disk,固态硬盘)为10ms],或者I/O持续无返回、I/O列队,则判断为硬盘亚健康;

(4)系统自动读取硬盘smart信息,检测关键指标是否异常;

(5)若一定时间内出现多块硬盘 I/O 慢或 I/O 阻塞,则判断为群集慢盘,会将对应存储节点隔离。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。