提起生成式AI,多数人首先想到的都是算力芯片,少数人会注意到闪存存储在其中的重要性。这其中,又有多数人只能模糊地意识到SSD是有价值的,但并不清楚SSD的具体作用。
2024年3月20,Solidigm亚太区销售副总裁倪锦峰做了一番系统性的介绍,让我们看到AI给存储带来的挑战,以及SSD固态盘在应对部分挑战时有重要作用。
AI给存储带来的挑战
首先是AI带来的数据规模挑战。生成式AI模型的参数规模通常非常庞大,为了提高模型的实际表现,经常需要需要准备大量训练数据。因此,存储系统要处理的数据量会越来越多,需要存储系统有足够的扩展性。
与此同时,如今高性能GPU不仅价格昂贵而且供应有限,如果不能将大量数据及时快速地传输给GPU,则会浪费宝贵的GPU资源,这对存储性能有了更高要求。当有了高性能的存储后,训练期间创建Ckeckpoint和从Ckeckpoint的速度也会大幅提高,也很有价值。
此外,AI还带来的功耗和空间管理挑战。来自Meta和斯坦福大学的研究表明,存储组件可能占服务器总能耗的35%,而高密度存储解决方案不仅能减少所需的服务器数量和机架空间,同时,还能直接减少了维持设备运行所需的能源以及散热供电。
AI在边缘场景中落地的挑战。在去中心化的趋势下,如果全把数据传回数据中心处理则会带来很高的成本,所以,数据的处理需要在更靠近数据源的复杂环境中进行,需要用尽可能少的空间和电力资源进行处理。
理论上来讲,闪存因为有非常高的性能表现,更少的空间占用,较高的存储密度和较低的功耗需求,在应对上述挑战中有不小优势。
在Solidigm看来,对于人工智能全流程场景,从数据摄取、数据准备、模型训练、Checkpoint创建和恢复,以及推理场景,SSD相较于传统的磁盘存储都有明显优势,充分可以证明SSD对于AI的重要性。
Solidigm可以帮助企业构建具有大型数据集的AI存储解决方案
过去几年以来,Solidigm继承自英特尔以来在企业级市场的积累,在市场上打造具有密度优势的SSD产品。作为最早在市场上力推QLC SSD的厂商,Solidigm在去年发布了61.44TB超大容量的SSD——D5-P5336,将业内存储密度提高到了新的水平。
Solidigm并非一味让客户接受QLC SSD,而是积极用CSAL让QLC发挥容量、密度和成本优势,配合高性能的SLC SSD作为写入缓冲区,将写入负载转换为对QLC更友好的顺序写入,减少写放大的同时,也优化了存储性能,最后提供高密度、高容量和高性能的存储。
值得注意的是,CSAL(云存储加速层)是Solidigm与Intel等合作伙伴联合开发的。最早是收费的产品方案,现在是开源的免费方案。据倪锦峰介绍,CSAL目前已经被成百上千家客户所使用,甚至一些第三方SSD厂商也在使用这一方案。
如今,CSAL在AI场景也派上了用场。
Solidigm
D7-5810是去年新发布的SLC固态盘,Solidigm D5-P5336是刚才提到的基于QLC的最高61.44TB的固态盘,两者搭配构建的CSAL方案在顺序写和随机读上的性能非常有优势,可以最大化XPU的利用率。
当然,用户也可以选择性能和成本比较平衡的方案,选择采用TLC介质的D7-P5520或者D5-P5430,虽然在提高XPU利用率方面不如此前的方案,但在p99随机读延迟上的表现有明显提升。
如果用户最在意的是成本,则可以索性选择单盘最大容量高达61.44TB的D5-P5336,5年TCO成本表现最佳,但在提高XPU利用率方面的表现会比较差。
Solidigm在企业级SSD市场有非常完备的布局,既有强调性能和耐久性的SLC固态盘,也有强调大容量高密度优势的QLC固态盘,也有中间态的TLC,这使得用户可以根据需求灵活选择,构建适合大型数据集AI的存储解决方案。
AI正在推动QLC闪存存储普及
倪锦峰注意到,QLC在AI场景中的应用越来越多。过去几年中,倪锦峰的团队一直在打造用SSD替代磁盘的方案,但一直进展缓慢。这倒不是因为担心QLC耐久性的问题,因为QLC固态盘的大容量可以弥补擦写次数上的不足。现在随着AI技术浪潮的到来,QLC的方案备受青睐,很多用户都在积极采用大容量QLC SSD,特别是在北美市场上。
相比之下,国内用户目前主要的关注点还在于GPU上。一方面是因为一些人还没意识到SSD的重要性。另一方面,因为实际的软件和硬件环境缺少对于大容量SSD的支持,使得国内整体对于大容量存储方案的采用相对落后。
之所以北美市场先知先觉地采用大容量QLC SSD,说到底还是应用需求在推动的。随着如今GPU性能越来越高,单台服务器的功耗上限迅速攀升,为了减少功耗压力,很多用户都会积极尝试功耗更低的闪存方案。倪锦峰预计,中国用户在未来一段时间也会逐渐意识到这一点。
从2023年年底到2024年年初,SSD涨价的趋势已经越发明显。业内专家表示,结合当前公开信息可以预测,在未来几个季度,SSD还会继续涨价,未来甚至会面临供应不足的情况。随着越来越多用户意识到SSD在AI场景中的作用,这一情况可能更甚。
在国内市场,Solidigm也接触到了一些因为AI场景而升级闪存存储的案例,比如金山云用SSD加速金山云对象存储的案例。
金山办公在WPS办公软件中加入了一些AI功能,为了提高响应速度,金山云对对象存储进行了升级。在Solidigm的帮助下,金山云对象存储从原本的硬盘加Cache的方案升级为纯QLC SSD的配置,升级后,将加载40TB原始数据集的时间从535分钟(约9小时)缩短到了11分钟。
随着AI应用越来越多,企业会面临数据存储方面的挑战,而这些挑战大多都可以选择用闪存方案来应对,也讲推动QLC闪存的普及。
未经允许不得转载:DOIT » Solidigm倪锦峰:闪存如何帮助企业应对GenAI带来的存储挑战?