文章

隨著人工智慧（AI）的發展，電力挑戰也隨之而來

生成式人工智慧（genAI）正在給軟體、硬體和環境基礎設施帶來巨大壓力。採用電源模組有助於實現更高的電流密度，從而將整體影響降至最低。

專訪 Maury Wood，Vicor 戰略行銷副總裁

生成式人工智慧（genAI）帶來的文化革命可能像互聯網普及一樣對人類產生深遠影響。從您的角度來看，目前情况如何？

過去 18 個月以來，我們見證了整個生成式人工智慧生態系統的飛速創新，涵蓋處理器晶片、專用軟體和超級電腦等多個領域，這些創新加速了特定領域人工智慧應用的開發，同時，許多企業紛紛宣佈戰略規劃，這預示著生成式人工智慧將在可預見的未來對全球經濟產生巨大影響。目前，生成式人工智慧模型的訓練已經在計算效能、存儲容量和網路頻寬方面達到了前所未有的高水准。一些當今效能最高的超級電腦（通常以浮點數學效能衡量）專門用於生成式人工智慧模型訓練。生成式人工智慧正推動電晶體、基礎設施硬體、系統軟體和網路邊緣等領域的空前投資，這種投資熱潮有望進一步擴充到家庭和工作場所的嵌入式人工智慧設備領域。

生成式人工智慧的快速普及會帶來哪些負面影響？

除了人們普遍擔憂的問題外，這波創新浪潮的一個主要成本是雲資料中心的能耗急劇增加，這些資料中心承擔著生成式人工智慧的訓練和推理任務，而能耗的預測數據令人擔憂。例如，《紐約時報》的一項預測顯示，到 2027 年，生成式人工智慧的用電量將相當於阿根廷、荷蘭或瑞典一年的用電量。生成式人工智慧模型的訓練和推理帶來日益嚴重的能耗挑戰，與社會减少能源使用和溫室氣體排放的目標背道而馳。

為何生成式人工智慧計算如此耗電？

首先，讓我們區分兩個概念。當我們個人使用生成式人工智慧工具時，我們是在對預訓練的大型語言模型（LLM）進行査詢，這種所謂的“推理”活動並不特別耗電，甚至可以在網路邊緣設備上進行。然而，訓練生成式人工智慧大型語言模型的過程則需要在我之前提到的超級電腦上進行大量計算（目前這個過程通常需要數月）。這些超級電腦使用成千上萬個基於圖形處理單元（GPU）的專用處理器，每個處理器包含的電晶體都數量驚人——通常超過 1000 億。這些訓練處理器採用了最先進的電晶體工藝技術，如 4 納米 CMOS 工藝，但在運行過程中會漏電。由於這些電晶體的供電電壓約為0.7V_DD，持續的電流需求可能高達 1000 安培或更高，導致持續功耗（也稱為熱設計功耗）達到 700 瓦特或更高。如果每臺生成式人工智慧超級電腦的數千個處理器和全球數百臺雲端生成式人工智慧超級電腦都乘以 700 瓦，總體電力消耗就會急劇飆升。

舉個例子，根據英偉達（Nvidia）的數據，OpenAI 的 GPT-3 模型有 1750 億個參數，整個訓練週期需要約 300 澤位元組浮點運算（300 zettaFLOPS，即每秒 1021 次浮點運算），相當於 3X10²³ 次數學運算。而且這些模型的規模只會不斷增加，目前正在開發的神經網路模型參數已達到萬億級。

The progression of genAI training processor peak current image

圖 1：生成式人工智慧訓練處理器的峰值電流需求不斷攀升，似乎沒有盡頭。

常規開關模式電源架構能否滿足生成式人工智慧的供電需求？

直到最近，資料中心機架還在使用 12V 直流配電系統。在過去十年中，Vicor 等電源系統創新公司一直宣導在資料中心機架中使用 48V 直流電源，因為根據歐姆定律，電壓更高可以在具有非零電阻的導體中降低功耗。開放計算項目組織（Open Compute Project）標準化的開放機架規範大大推動了 48V 直流電源在高性能計算應用中的採用。在早期的生成式人工智慧配電架構中，這種 48V 直流電源在加速模組上轉換為中間母線電壓，然後再通過跨電感電壓穩壓器（TLVR）供電，然而這種方法在可擴充性和電流密度方面存在明顯的局限性。

圖 2：概念性加速模組（AM），展示基於 GPU 的處理器並支持高頻寬記憶體（HBM），是生成式人工智慧的基本構建模組。

為何 TLVR 方法不足以滿足生成式人工智慧處理器的供電需求？

在用於生成式人工智慧訓練處理器的加速模組上，可用的印刷電路板（PCB）空間非常有限，這意味著這些處理器的供電子系統必須具有超高的功率密度（W/mm²）和電流密度（A/mm²）。傳統電源根本無法達到所需的功率和電流密度，既無法提供足够的電流，也無法適應有限的 PCB 面積。此外，生成式人工智慧訓練處理器的電源組件還必須滿足負載瞬變引起的動態效能需求。同樣，傳統的供電方法並不能很好地滿足這些要求。另外，生成式人工智慧供電架構中的組件必須具有出色的散熱能力。無論生成式人工智慧系統採用液冷還是風冷，電源組件都必須具有高熱導率，其封裝還要能在整個使用壽命期內承受極高水准的熱循環。最新的生成式人工智慧加速模組採用分級電源架構，其負載點轉換器使用電流倍增技術，如 Vicor 公司的創新技術。

圖 3:Vicor 的分比式電源架構（FPA）在負載點採用具有出色散熱效能的模組化電流倍增器（MCM），非常適合生成式人工智慧訓練應用。

Vicor 技術如何改進生成式人工智慧的供電？

Vicor 獨特的電源模組採用模塑成型，然後使用無電鍍鎳浸金（ENIG）工藝進行電鍍。模壓結構確保機械剛性，以及在溫度、濕度和振動等環境下的穩定性。電鍍外表面有利於高良率的表面貼裝組裝，同時為使用冷板強制風冷或液冷提供了理想的熱傳導條件。 Vicor 電源模組採用專有的正弦振幅轉換器™（SAC™）電路拓撲，使用零電壓開關（ZVS）和零電流開關（ZCS）科技來最大限度地减少開關雜訊和雜散輻射，同時最大化 DC-DC 轉換效率。Vicor 還使用高頻 MOSFET 開關來减小高度集成模組的物理尺寸。此外，Vicor 為人工智慧/高性能計算應用設計的負載點組件非常薄（≤1.7mm），並在一系列與 PCB 相容的封裝中提供可擴展的電流輸出。在可預見的未來，生成式人工智慧無疑將繼續是現代計算世界中最耗電且散熱挑戰最大的應用。Vicor 將繼續創新，滿足這一激動人心的新業務機會不斷攀升的供電需求。

本文最初由 Electronic Specifier 發表。

Maury Wood 是 Vicor 公司戰略行銷副總裁。在加入 Vicor 之前，Maury 曾在EXFO、AFL、Broadcom、恩智浦、Analog Devices 和 Cypress 等光纖測試和電晶體公司擔任多個高級職務。他擁有密歇根大學的電氣工程學士學位，並在東北大學（Northeastern University）、巴布森學院（Babson College）和麻省理工學院（MIT）進行過研修。他喜歡攀岩、越野滑雪、山地自行車和爵士貝斯。