设计工具
内存

内存湖s: How the l和scape of 内存 is evolving with CXL™

微米 Scalable 内存 Systems Pathfinding Group | January 2024

不断变化的数据需求

Since computers have been around, efficiently getting information to 和 from the processors has been challenging. The dreaded stacks of punch cards, 磁带盘和软盘驱动器被旋转硬盘驱动器取代,旋转硬盘驱动器可以快速读取和存储大量数据(在当时). These drives were connected to a single computer, 和 if a user wanted to move data between computers, sneakernet 和 then FTP were the best options. 但是,这些方法导致同一文件的许多副本难以保持同步和管理.

在80年代中期, Sun微系统公司的一些聪明的工程师通过创建网络文件系统(NFS)解决了文件复制问题。, which let multiple computers access a file that resided in a single location. 起初, this location was another computer; later, that location was on a network-attached storage (NAS) device.

数据集市, 数据仓库数据仓库 已经让位于 数据的湖泊, which is a term used to describe vast amounts of data available in non-volatile, 可通过网络为各种用户和目的访问的块寻址存储器, as shown in Figure 1.

内存-lake-graph-2.png

As datasets grow from megabytes to terabytes to petabytes, 将数据从块存储设备跨互连移动到系统内存的成本, 执行计算,然后将大型数据集存储回持久存储的时间和功率(瓦特)都在增加。. 此外,异构计算硬件越来越需要访问相同的数据集. 例如, 通用CPU可用于组装和预处理数据集和调度任务, 但专门的计算引擎(如GPU)在训练人工智能模型方面要快得多. 需要一种更有效的解决方案,减少将大型数据集从存储直接传输到处理器可访问的内存.

一些组织已经通过保持大数据集来推动行业解决这些问题, byte-addressable, 共享内存. 在20世纪90年代, 可扩展的相干接口(SCI)允许多个cpu在一个系统内以一致的方式访问内存. The heterogeneous system architecture (HSA)1 规范允许在同一总线上不同类型的设备之间共享内存. In the decade starting in 2010, Gen-Z标准提供了一种内存语义总线协议,具有高带宽和低延迟的一致性. 这些努力最终形成了今天广泛采用的计算快速链接(计算快通, CXLTM)标准. Since the formation of the 计算快通 (CXL) consortium, 微米 has been 和 remains an active contributor.

CXL shared, zero-copy 内存

计算快通 opens the door for saving time 和 power. 新的cxl3.1 st和ard allows for byte-addressable, 负载-存储-可访问的内存,如DRAM,在不同的主机之间以低延迟共享, high-b和width interface using industry-st和ard components.

这种共享打开了以前只能通过昂贵的专有设备才能实现的新大门. With shared 内存 systems, 数据可以一次加载到共享内存中,然后由管道中的多个主机和加速器多次处理, without incurring the cost of copying data to local 内存, block storage protocols 和 latency.

Moreover, some network data transfers can be eliminated. 例如, 数据可以通过连接到传感器阵列的主机在一段时间内被摄取并存储在共享内存中. Once resident in 内存, a second host optimized for this purpose can clean 和 preprocess the data, followed by a third host processing the data. Meanwhile, the first host has been ingesting a second dataset. 需要在主机之间传递的唯一信息是一条指向数据的消息,表明数据已准备好进行处理. 大型数据集无需移动或复制,从而节省带宽、能源和内存空间.

零拷贝数据共享的另一个示例是生产者-消费者数据模型,其中单个主机负责收集内存中的数据, 和 then multiple other hosts consume the data after it’s written. 像之前一样, the producer just needs to send a message pointing to the address of the data, signaling the other hosts that it’s ready for consumption.

Enhanced 内存 functionality

具有内置处理功能的CXL内存模块可以进一步增强零复制数据共享. 例如, 如果CXL内存模块可以完全在模块中对数据对象执行重复的数学操作或数据转换, system b和width 和 power can be saved. 这些节省是通过使用一种称为近内存计算(NMC)的功能命令内存模块执行操作而无需数据离开模块来实现的。.

另外, 可以利用低延迟CXL结构以低开销非常快速地将消息从一个主机发送到另一个主机, between hosts 和 内存 modules, or between 内存 modules. 这些连接可用于同步步骤,并在生产者和消费者之间共享指针.

Beyond NMC 和 communication benefits, advanced 内存 telemetry can be added to CXL modules to provide a new window into real-world application traffic in the shared devices2 without burdening the host processors. With the insights gained, 操作系统和管理软件可以优化数据放置(内存分层)并调整其他系统参数以满足操作目标, from performance to energy consumption. 额外的内存密集型增值功能(如事务)也非常适合NMC.

内存湖

微米 is excited to combine large, 将CXL全局共享内存和增强内存特性扩展到我们的内存湖概念中. A 内存 lake takes advantage of the new features of the CXL 3.并添加本博客中讨论的功能,如图2所示.

内存-lake-graph-1.png: block diagram of 内存 lake

A 内存 lake includes the following features:

  • Efficient capacity 和 cost
    • 数百tb到pb的全局可寻址共享内存,允许对最大的数据集进行非分片访问
    • 内存 tiering where the most critical data is always in the fastest 内存, 但是成本和数据持久性是通过将不太重要的数据保存在更经济有效的内存中来控制的
    • Configurable topologies
  • Performance through sharing
    • 数据共享,通过负载存储语义,多达数十(或数百)台主机可以访问可字节寻址的数据,而无需复制
  • Low-latency implementation
    • Sub 600 nanosecond load 和 store times of data
    • Synchronization through the CXL fabric (less than 1 microsecond)
  • Near-内存 computing for accelerated performance
    • 数据永远不会离开内存模块的计算能力(内存附近或内存内计算)
    • Native 内存 module support for atomic operations
This is an exciting time for CXL 和 shared 内存. 如果您目前正在测试CXL,请通过加入我们的技术支持计划(TEP)来了解最新情况, or follow us here for future updates.

1 Heterogeneous System Architecture Foundation (hsafoundation.org)

2 D. ,维. 沃丁顿和D. A. Roberts, "CXL-Enabled Enhanced 内存 Functions"

Scalable 内存 Systems Pathfinding Group, 微米
The Advanced 内存 Solutions Group engages in re搜索, design 和 testing of new 内存 technologies. Our team of experts works closely with partners, 客户, 大学, 和标准机构,以确保美光内存解决方案始终处于内存技术的领先地位.