硬盘亚健康是指硬盘可以正常运行但性能低于预期的一种状态,导致硬盘亚健康的原因非常多,包括但不限于硬盘自身缺陷、温度、环境(如震动)等。一旦硬盘进入亚健康状态,并且分布式存储软件未进行有效监控和容错,则极有可能会导致上层业务时延增大、IOPS降低等,严重时甚至可能导致主机业务中断。
分布式块存储系统对硬盘亚健康检测的具体流程如下:
(1)系统每隔3秒对硬盘健康状态进行检测;
(2)检测坏道、慢盘、I/O错误、smart信息超标等;
(3)检测 I/O 慢或 I/O 阻塞,在一定时间内,若多个周期硬盘服务时间超过阈值[HDD(Hard Disk Drive,硬盘驱动器)为150ms,SSD(Solid State Disk,固态硬盘)为10ms],或者I/O持续无返回、I/O列队,则判断为硬盘亚健康;
(4)系统自动读取硬盘smart信息,检测关键指标是否异常;
(5)若一定时间内出现多块硬盘 I/O 慢或 I/O 阻塞,则判断为群集慢盘,会将对应存储节点隔离。