1.前言
大家对SSD的第一印象就是性能高、速度快,然而随着SSD在数据中心、高性能计算、高端存储、边缘计算等各种企业级应用场景的逐步普及,近年来企业级SSD产品的发货量逐年快速上升,而随着实际在网运行数量的逐步增加,一些可靠性问题也逐渐体现,而SSD的可靠性也企业级用户重点关注的方向。
讲到SSD的可靠性,我们通常能听到的术语有:Failure Rate(故障率或者失效率)、MTBF、AFR、Retention、Endurance、 UBER、FFR等,在实际工作中经常有些不是可靠性领域的工程师来询问这些指标的含义,所以本文主要简单介绍一下这些SSD可靠性指标的概念及其意义,方便大家更深入的了解和认识SSD的可靠性。
2. 故障率/MTBF/AFR
2.1 故障率
2.2 浴盆曲线模型
提到可靠性,必须要讲下最经典的浴盆曲线(Bathtub Curve)可视化模型,浴盆曲线模型是指导产品或者系统进行可靠性设计、验证、优化的最常用的模型,也是可靠性工程师甚至质量工程师都非常关注的理论。
浴盆曲线简单来说将产品的生命周期分为三个阶段:
1)早期失效期(Infant Morality Period):此阶段失效率较高,大多是生产制造带来的失效,但是这段时间比较短,而且失效率随着时间推移会迅速降低并趋于稳定。
2)稳定期(Steady Period):或者叫随机失效期,有时也叫正常生命期,这个阶段产品的失效率是恒定的常数,通常发货给客户的产品都工作于这个阶段。
3)寿命耗尽期(Wear-out Period): 这个阶段产品由于寿命的耗尽,失效率逐渐增高。浴盆曲线在可靠性的设计和优化上有非常多的应用,本文中所讨论的可靠性指标MTBF/AFR等,都是指的正常生命期也就是稳定期。
关键词标签:海量存储 文件存储 分布式存储 国产存储 私有云 企业级存储 软件定义存储