设计工具
存储

Working to revolutionize 固态硬盘 resiliency with shift-left approach

史蒂文·威尔斯 | November 2023

美光一直致力于为数据中心制造世界级的固态硬盘. 到目前为止,我们已经向数据中心运送了数千万块ssd,并且正在使用我们的232层NAND技术增加新的ssd. 一个世界级的固态硬盘不仅包括能效和高性能, but also design resiliency. 弹性意味着驱动器将在其数据中心拥有较长的使用寿命.

定义高弹性一直是OCP存储工作组与设备和主机制造商合作的一个主题. OCP存储工作组在三个主要版本的数据中心- nvme规范(在本文的其余部分我将其称为“OCP 固态硬盘规范”)中改进并增强了垂直集成的高弹性。. 垂直集成的弹性是一个概念,意味着主机和设备都承担了制作高弹性存储子系统的元素.

我们的愿景是在创造全船队高弹性所需的努力中“向左转移”. 减少调试和更换故障驱动器的时间,增加主动监视车队运行状况的时间,并提高在不丢失数据的情况下进行恢复的能力. 我们将讨论这个解决方案的多个元素,以及美光对下一步可能进一步增强的看法.

The OCP 存储 resiliency architecture: A shift-left approach for preventing, 检测, recovering and reporting 固态硬盘 Failures

History of resiliency in 固态硬盘s

Before the first version of the OCP Spec, 微米 worked hard for seamless intrinsic recovery and self-annealing. These include things such as retiring bad blocks, 实现内部异或解决方案,我们称之为独立NAND冗余阵列(RAIN), and offering CRC detect and retransmit on the SATA or PCIe bus. We offered SMART information on such events. 我们努力收集和监控这些SMART数据,不仅可以帮助监控整个车队的健康状况,识别潜在的异常值,还可以改进我们未来的解决方案.

A history of resiliency in OCP 存储

The first effort for vertically integrated solution, 这意味着主机和设备都承担了制作高弹性存储子系统的元素, Microsoft支持增强弹性,并在OCP规范V1中首次贡献,其中引入了错误恢复(logpage C1h)的概念. 这允许设备通知主机内部恐慌情况,并指示主机如何获取供应商唯一的调试信息以及如何执行恢复过程. V1规范支持多种恢复操作,但规范的其他部分(CRASH-4)建议使用FORMAT命令., This means that all the data on the device would be erased and unrecoverable, as the only way to recover from an internal panic condition. 微软还在OCP Spec V1中提供了沙巴体育安卓版下载错误注入的概念,用于主机和设备参与的健壮的垂直集成测试.

V2规范通过提供额外的C1h字段增强了恢复过程. 该规范首次引入了OCP存储延迟监视器特性. 该特性允许驱动器自我报告高延迟I/O事件,甚至包括供应商特有的调试信息. 这可以与主机I/O延迟日志进行比较,以帮助找出问题的根源,如果是存储设备问题,则在内部提供线索以支持纠正措施.

Some exciting capabilities in the V2.5规范版本最近继续提供更好的垂直弹性集成. 标准化遥测是本次修订中最大的元素和大多数新功能. 之前的规范修订最终会导致每个供应商添加独特的专有监控和调试信息,这些信息要么需要获取供应商独特的日志页面,要么需要获取遥测技术. 理想情况下,供应商将请求二进制文件传输或提供供应商唯一的解码工具来生成人类可读的输出. The Standardized Telemetry in OCP 固态硬盘 V2.5规范通过提供使用标准化解码工具报告和解码供应商唯一调试的方法解决了这个问题. 这可以立即提高调试效率,因为不需要主机提供专门的数据捕获和解码功能.

标准化遥测项目创建了一种从分布式系统收集所有重要健康数据的简单方法. It uses a single I/O command that works with any compliant 存储 device. The host can then capture and decode the data from the first telemetry data area. This data has all the details that the host and the vendor need to work together. They can identify the devices that are failing or about to fail, and improve their health monitoring solutions for the future.

Heading forward

Microsoft's Ayberk Ozturk offered a presentation at FMS 2023 on their vision of a future in vertically integrated high resiliency. 他们表达了将数据恢复作为恐慌恢复的一部分的强烈愿望. the current specification request of a FORMAT command. They argued that as 存储 devices become larger and larger, 更多的租户可能正在使用单个直接连接驱动器,因此在紧急情况发生后,最好使用完全(甚至部分)数据恢复,而不是使用数据恢复. terminating multiple virtual machines. They suggested that this would facilitate concepts around utilizing live migration. Exploring the specifics of such a solution is a good goal for 2024.

一个愿景

What used to be reporting of asserts and panics has turned into recovery. What was recovery has turned into detection, and what used to be detection has turned into prevention. The classic shift-left. 美光很兴奋,并致力于继续与行业和OCP存储合作,共创未来.

Please reach out to us at 微米 with your ideas. It’s a collaboration so let’s work together. 

Fellow, Architect 存储 Systems

史蒂文·威尔斯

史蒂文·威尔斯 is a Fellow at 微米, 专注于下一代固态硬盘解决方案,在非易失性存储领域拥有超过65项专利. 自1987年以来,他一直参与闪存组件和固态硬盘设计,并在包括ISSCC在内的多个会议上发表过文章, JSSC, Flash 内存 Summit, 存储 Developer Conference, and OCP Global Summit.