通用算力会向高密、液冷的整机柜形态演进。
文|赵艳秋
编|牛慧
2023年初,一家互联网大厂找到浪潮信息,想解决一个业务中遇到的新问题:客户的应用场景非常多元,在实际应用中,他们发现每个场景最佳匹配的处理器平台并不同。比如,轻量级容器场景,通常对性能需求适中,但对功耗和密度要求较高;高性能的计算场景,则更倾向于具有更强并行处理能力,有更多高频核心的处理器平台。客户提出一个诉求,我怎么在各种业务中,快速上线不同处理器的服务器?
此前,通用服务器系统都围绕着某一个处理器的平台为核心,进行“定制”开发。现在,面对客户对多元处理器平台的“既要”、“也要”,服务器怎么去快速覆盖?这对几乎数十年不变的通用服务器架构,提出了变革诉求。
与这个问题几乎同时出现的是,虽然大模型的训练和推理大都由AI服务器承担,但人工智能也对通用服务器提出了新要求,比如大模型训练需要的数据存储。而通用服务器也具备了智能加速能力,可以运行大模型推理服务。从长远来看,正在快速演进的十万卡乃至百万卡智算集群,对数据中心的颠覆和重构,也牵引着通用服务器,像AI服务器那样,走向高密度部署。
市场出现的这两个新变量,也让已进入产业成熟期的通用服务器,再次站到了新变革的起点上。
通用服务器未来的出货量增幅预计保持在5%~6%
01
新标准的变革和博弈
面对这家互联网大厂提出的多元算力诉求,浪潮信息与客户展开了“头脑风暴”,解耦思路浮出水面。此前,AI服务器也曾面临多个加速芯片竞争的局面,浪潮信息参与并推动的OAM标准,采用了解耦和标准化模组方式,让不同厂商的芯片能够快速应用和上量。
“OAM的思路给了我们启发。”浪潮信息服务器产品线总经理赵帅说。通用服务器如果能打破市场惯例,不再以某一处理器为核心做系统架构设计,而是拆分为处理器、硬盘、IO、电源等标准化模块,那么,客户就可以像拼乐高一样拼接不同模块,满足自己的多元需求。
这个想法提出的一年多之后,经过产业链多方的努力,解耦思路得以落实。开放标准组织OCTC发起了开放算力模组(OCM,Open Computing Module)规范,建立了标准化算力模组,实现了“一机多芯”。按照规范的定义,未来一台服务器中,英特尔、AMD、ARM更多CPU平台可随意切换,甚至可以同时支持。这也是国内首个服务器计算模组设计标准规范。
开放算力模组(OCM,Open Computing Module)规范启动
浪潮信息也完成了首个符合OCM规范的产品设计。数智前线获悉,首款基于OCM规范的元脑服务器NF3290G8目前已进入送测阶段,预计2025年Q1进行批量部署。
这一标准之所以能在此时打破过去几十年通用服务器的设计惯例,也与产业链各方正在寻求的破局相关:
最强势的处理器芯片环节“松动”了。最近两年,多元算力起势,不仅X86体系,RSIC-V体系、ARM体系都在积极布局算力市场,芯片的竞争趋于白热化——谁先抵达用户侧、实现业务快速上线,谁就能占领市场。强势的芯片厂商也不能再固守陈规,有了可协商的空间。
终端用户企业也提出急迫需求。互联网大厂需要灵活多变的算力单元,通信企业则有多元算力快速部署上量的压力。
服务器企业面对这么多芯片平台,开发工作量成倍攀升、成本高企。他们也有迫切提升多元算力服务器研发效率的动力。
而对于国家标准制定单位,算力模块产业标准一直是个空白,他们有意愿去构建相关标准,促进国内服务器产业对标国际水平。
这些推力,让产业链各方走到了一起。于是,在2024年OCTC发起开放算力模组规范时,人们看到首批成员包括了中国电子技术标准化研究院、百度、小红书、浪潮信息、英特尔、AMD、联想、超聚变等各方代表。
不过,标准出台的过程并非一帆风顺,大家有各自的需求,也因此有一些冲突点。
比如,互联网大厂和芯片厂商,互联网大厂更关注领先芯片平台在标准中获得落实,一些国内外芯片厂商则更关注平台的兼容性,以及能否将各自的优势得以展现。最终,标准组将这些算力平台都纳入进来,做标准化评估和兼容。
不同服务器厂商也有自己的诉求,都期望标准多向自己倾斜一些。最终,标准组通过主板标准+托盘方法,快速耦合不同机箱或技术架构平台,化解了这一矛盾。
浪潮信息服务器产品线产品规划经理罗剑回忆这次标准发起和制定过程时说,各方能走到一起,一个大前提是有利于整个产业的健康发展。在这个前提之下,OCM提供了一个相对公平的平台。通过这一平台,大家可以共同促进算力产业的高质量发展。
02
产品化呈现三大重要趋势
OCM标准出台之后,业界开始了产品化工作。
浪潮信息紧锣密鼓推出了首个基于OCM架构的通用服务器——元脑NF3290G8。首代服务器支持两种CPU新品,英特尔®至强®6处理器,以及第五代AMD EPYC™ 9005系列处理器。前者在AI推理与计算、生成式AI、科学研究等场景,表现出较高的性能提升,后者则在全闪存储、高网络带宽、金融高频交易、大数据分析等场景,性能提升不错。
而在这次系统厂商对OCM标准的产品化过程中,有三大趋势也值得业界关注:其一是解耦化;其二是产品智能化管理中,对大模型技术的引入;其三是硬件开放、软件开源的潮流。
在第一个大趋势上,OCM采用的解耦趋势,代表了服务器系统架构的未来演进方向。“从系统效率来看,系统分为通用算力、内存、异构算力等标准模块之后,提供一致性的供电、散热和调控,就可以针对不同硬件资源,进行相应的供电、散热优化,才能实现极致的能效比。”罗剑说,采用OCM标准的元脑NF3290G8,已呈现了雏形。
为了实现解耦和模块化设计,工程师们聚焦解决了计算模块的供电、管理、对外高速互连等归一化问题。如在管理上,由于每个处理器芯片的管理接口、协议等均不同,要求管理系统BMC,要掌握各家处理器的“密码本”,将不同的信息翻译成“明文”后,进行统一管理。此前,这一技术掌握在独立BMC固件提供商(IBV)手中。而2023年,浪潮信息通过开源路线OpenBMC,掌握了固件研发的技术能力,为这次实现处理器管理的归一化,奠定了基础。
在第二大趋势产品管理智能化上,针对通用服务器中的高故障部件,如内存和硬盘,新一代服务器平台,利用了大模型可对海量数据进行学习训练的优势,基于浪潮信息推出的大模型“源”,对以往服务器的故障日志数据,进行了针对性训练,形成故障预警模型,集成到BMC管理引擎中。目前,系统实现了提前7天的故障预警,将客户的非计划停机时间缩至更短,以减少业务损失。
在第三大趋势开源开放上,硬件的产品设计,尤其是与OCM产品化相关的设计,都在OCTC开放社区中进行贡献,让客户可获得相关资料。在软件开源上,从OpenBMC社区而来的开源技术,帮助浪潮信息解决了解耦中的关键问题,并再次回馈给开源社区。开源开放是一个不断积累和汇聚技术力量的过程,最终为自身和产业链发展提供强大的支撑和动力。
在这三大重要趋势之外,通用服务器功耗攀升带来的散热问题,也是业界极为关注的。根据介绍,散热也是这次产品化过程中,遇到的最大挑战。
我们可以在通用服务器上看到,处理器平台的未来功耗大约在500~600瓦之间。同时,服务器中还有四个350瓦的GPU。而智能网卡已成为云业务的标配,随着带宽的攀升,它的功耗也不容小觑。这些部件的功耗加起来,整机功耗已接近3000瓦。如何解决如此大功耗的散热?罗剑透露,工程师们采用的方法之一是散热风道分离,CPU、GPU以及智能网卡,都有单独的散热通道。这让散热效率提升5%以上,对数据中心的PUE来说极为重要。
而接下去,当通用服务器的功耗进一步攀升,风冷可能就走到尽头了,OCM标准可能将向液冷方向演进。
采用OCM标准后,服务器的研发成本大幅降低。因为解耦,减少了很多重复性的开发工作,加快了芯片从研发、测试验证到落地的速度,浪潮信息的产品开发周期从原来的18个月,压缩到6到8个月。另外解耦和模块化过程中,因为可靠性标准,包括信号、电源、结构、系统稳定性要求的提高,架构的改变,并未降低服务器的可靠性。
图说:OCM算力模块,可支持多处理器平台
03
通用服务器处于变革起点
OCM是一个重要的里程碑,用解耦思路,改变了通用服务器的设计惯例,但从长远来看,未来一段时间,智算对通用服务器带来的影响,将更为剧烈。
当下,智算正在引领整个产业的演进。大模型对算力的需求,让智算算力高速攀升。根据市场调研公司的IDC的分析预测,2023年和2024年,AI服务器市场连续翻番。如在中国市场,AI服务器2023年翻倍到100亿美元;2024年又翻倍增长到近200亿美元。AI服务器即将占据整体服务器市场的半壁江山。服务器市场也因而有了一句话,市场好不好,就看AI服务器。
在AI服务器中,GPU的旗舰芯片实现了Chiplet化,多个芯片裸片被互联封装在一起,以提供极致的算力,但也让芯片功耗迅速攀升到1200瓦甚至1600瓦,并进一步拉动了整个算力基础设施的供电需求。
过去10年,数据中心基础设施的变化并不大。现在,大多数数据中心供电能力为10千瓦~12千瓦。随着智算的演进,未来数据中心整体供电能力将达到100千瓦向上,甚至200千瓦。现在,一些AI整机柜服务器甚至可能达到400千瓦。
“在这一大前提下,我们判断未来通用算力可能也会出现大变革。” 罗剑说,因为当下通用服务器的部署方式,与高供电能力的数据中心相比,收益和效率都较低。“我们判断通用算力也会向高密、液冷的整机柜形态做长期演进。”
如果通用服务器采用高密整机柜部署形态,其中的节点将基于分层解耦理念进行设计。而OCM的解耦理念,也是将算力单元变成一个个小模块。因此,OCM可能会成为实现数据中心服务器高密部署的起点。未来可能再通过液冷方式,将部署密度提升上去。
罗剑分析,在朝着高密、液冷方向演进的过程中,产品设计将发生翻天覆地的变化。如内存可能将平铺在主板或贴在主板正反面,或以一种更易于液冷部署的方式来构建。
而为了实现这样的变革,现有的产业链也将延伸,液冷、内存、供电等环节的企业也将加入进来。“OCM会是一个好的开始。”罗剑说,“它将推动算力产业面向未来的需求去演进、升级。”