文章
随着人工智能(AI)的发展,电力挑战也随之而来
生成式人工智能(genAI)正在给软件、硬件和环境基础设施带来巨大压力。采用电源模块有助于实现更高的电流密度,从而将整体影响降至最低。
专访 Maury Wood,Vicor 战略营销副总裁
生成式人工智能(genAI)带来的文化革命可能像互联网普及一样对人类产生深远影响。从您的角度来看,目前情况如何?
过去 18 个月以来,我们见证了整个生成式人工智能生态系统的飞速创新,涵盖处理器芯片、专用软件和超级计算机等多个领域,这些创新加速了特定领域人工智能应用的开发,同时,许多企业纷纷宣布战略规划,这预示着生成式人工智能将在可预见的未来对全球经济产生巨大影响。目前,生成式人工智能模型的训练已经在计算性能、存储容量和网络带宽方面达到了前所未有的高水平。一些当今性能最高的超级计算机(通常以浮点数学性能衡量)专门用于生成式人工智能模型训练。生成式人工智能正推动半导体、基础设施硬件、系统软件和网络边缘等领域的空前投资,这种投资热潮有望进一步扩展到家庭和工作场所的嵌入式人工智能设备领域。
生成式人工智能的快速普及会带来哪些负面影响?
除了人们普遍担忧的问题外,这波创新浪潮的一个主要成本是云数据中心的能耗急剧增加,这些数据中心承担着生成式人工智能的训练和推理任务,而能耗的预测数据令人担忧。例如,《纽约时报》的一项预测显示,到 2027 年,生成式人工智能的用电量将相当于阿根廷、荷兰或瑞典一年的用电量。生成式人工智能模型的训练和推理带来日益严重的能耗挑战,与社会减少能源使用和温室气体排放的目标背道而驰。
为何生成式人工智能计算如此耗电?
首先,让我们区分两个概念。当我们个人使用生成式人工智能工具时,我们是在对预训练的大型语言模型(LLM)进行查询,这种所谓的"推理"活动并不特别耗电,甚至可以在网络边缘设备上进行。然而,训练生成式人工智能大型语言模型的过程则需要在我之前提到的超级计算机上进行大量计算(目前这个过程通常需要数月)。这些超级计算机使用成千上万个基于图形处理单元(GPU)的专用处理器,每个处理器包含的晶体管都数量惊人——通常超过 1000 亿。这些训练处理器采用了最先进的半导体工艺技术,如 4 纳米 CMOS 工艺,但在运行过程中会漏电。由于这些晶体管的供电电压约为 0.7VDD,持续的电流需求可能高达 1000 安培或更高,导致持续功耗(也称为热设计功耗)达到 700 瓦特或更高。如果每台生成式人工智能超级计算机的数千个处理器和全球数百台云端生成式人工智能超级计算机都乘以 700 瓦,总体电力消耗就会急剧飙升。
举个例子,根据英伟达(Nvidia)的数据,OpenAI 的 GPT-3 模型有 1750 亿个参数,整个训练周期需要约 300 泽字节浮点运算(300 zettaFLOPS,即每秒 1021 次浮点运算),相当于 3X1023 次数学运算。而且这些模型的规模只会不断增加,目前正在开发的神经网络模型参数已达到万亿级。
图 1:生成式人工智能训练处理器的峰值电流需求不断攀升,似乎没有尽头。
常规开关模式电源架构能否满足生成式人工智能的供电需求?
直到最近,数据中心机架还在使用 12V 直流配电系统。在过去十年中,Vicor 等电源系统创新公司一直倡导在数据中心机架中使用 48V 直流电源,因为根据欧姆定律,电压更高可以在具有非零电阻的导体中降低功耗。开放计算项目组织(Open Compute Project)标准化的开放机架规范大大推动了 48V 直流电源在高性能计算应用中的采用。在早期的生成式人工智能配电架构中,这种 48V 直流电源在加速模块上转换为中间母线电压,然后再通过跨电感电压稳压器(TLVR)供电,然而这种方法在可扩展性和电流密度方面存在明显的局限性。
图 2:概念性加速模块(AM),展示基于 GPU 的处理器并支持高带宽内存(HBM),是生成式人工智能的基本构建模块。
为何 TLVR 方法不足以满足生成式人工智能处理器的供电需求?
在用于生成式人工智能训练处理器的加速模块上,可用的印刷电路板(PCB)空间非常有限,这意味着这些处理器的供电子系统必须具有超高的功率密度(W/mm²)和电流密度(A/mm²)。传统电源根本无法达到所需的功率和电流密度,既无法提供足够的电流,也无法适应有限的 PCB 面积。 此外,生成式人工智能训练处理器的电源组件还必须满足负载瞬变引起的动态性能需求。同样,传统的供电方法并不能很好地满足这些要求。另外,生成式人工智能供电架构中的组件必须具有出色的散热能力。无论生成式人工智能系统采用液冷还是风冷,电源组件都必须具有高热导率,其封装还要能在整个使用寿命期内承受极高水平的热循环。最新的生成式人工智能加速模块采用分级电源架构,其负载点转换器使用电流倍增技术,如 Vicor 公司的创新技术。
图 3:Vicor 的分比式电源架构(FPA)在负载点采用具有出色散热性能的模块化电流倍增器(MCM),非常适合生成式人工智能训练应用。
Vicor 技术如何改进生成式人工智能的供电?
Vicor 独特的电源模块采用模塑成型,然后使用无电镀镍浸金(ENIG)工艺进行电镀。模压结构确保机械刚性,以及在温度、湿度和振动等环境下的稳定性。电镀外表面有利于高良率的表面贴装组装,同时为使用冷板强制风冷或液冷提供了理想的热传导条件。Vicor 电源模块采用专有的正弦振幅转换器™(SAC™)电路拓扑,使用零电压开关(ZVS)和零电流开关(ZCS)技术来最大限度地减少开关噪声和杂散辐射,同时最大化 DC-DC 转换效率。Vicor 还使用高频 MOSFET 开关来减小高度集成模块的物理尺寸。此外,Vicor 为人工智能/高性能计算应用设计的负载点组件非常薄(≤1.7mm),并在一系列与 PCB 兼容的封装中提供可扩展的电流输出。在可预见的未来,生成式人工智能无疑将继续是现代计算世界中最耗电且散热挑战最大的应用。Vicor 将继续创新,满足这一激动人心的新业务机会不断攀升的供电需求。
本文最初由 Electronic Specifier 发表。
Maury Wood 是 Vicor 公司战略营销副总裁。在加入 Vicor 之前,Maury 曾在EXFO、AFL、Broadcom、恩智浦、Analog Devices 和 Cypress 等光纤测试和半导体公司担任多个高级职务。他拥有密歇根大学的电气工程学士学位,并在东北大学(Northeastern University)、巴布森学院(Babson College)和麻省理工学院(MIT)进行过研修。他喜欢攀岩、越野滑雪、山地自行车和爵士贝斯。
Maury Wood,战略营销副总裁