使用GPU或者xPU的AI加速卡,核心芯片的工藝制程從7nm、5nm工藝,將很快過渡到3nm工藝節(jié)點。隨著工藝制程的不斷提升,xPU的核心工作電壓也在不斷降低,目前標稱核心電壓在0.75至0.9V之間。當AI加速卡在處理模型訓練運算的時候,其核心所需電流可能達到600到1800A,電流變大的時候,PCB走線阻抗所帶來的損耗和PDN問題就會變的相當棘手。
AI加速卡的電源架構
圖源:Renesas
為了提升計算密度,使用PCIe接口的AI加速卡,通常會通過集群的方式安裝到服務器中,每個AI服務器中安裝4或8個加速卡,此時的對于電源傳輸來講橫向的電源傳輸路徑被大幅壓縮,由于需要同時考慮到大電流開關電源的噪聲對于高速信號的影響,所以多項開關電源只能移動到更靠近核心的位置,同時面對xPU核心電壓對于600-1800A大電流需求,傳統(tǒng)的多相buck電源方案幾乎難以滿足要求。
NVIDIA H200 NVL 4 GPU集群
AI加速卡的瞬態(tài)功率可能會達到額定最大功率的2倍甚至更高,在這種電流瞬態(tài)變化較大的情況下,還需要保證避免xPU電壓供電電壓過小導致系統(tǒng)掛起,供電電壓過大損壞xPU。這對于電源的容差、紋波以及負載瞬態(tài)相應都要求極高。
熱管理同樣是面臨的重大挑戰(zhàn)之一,傳統(tǒng)的供電方法是將穩(wěn)壓器放置在xPU的一側,電流橫向傳輸到處理器。由于電流不大,引起的電壓(I2R)下降也在可接受范圍內。但是當電流達到600-1800A時,PCB電源層傳輸路徑上的壓降會成倍的增加,即便是幾厘米的PCB電源走線也會產生大量的損耗。
針對AI加速卡集群,垂直供電是最好的解決方案。在垂直供電的方案中,電源模塊直接安裝在處理器PCB另外一側的下方,此時電流傳輸的距離就是PCB的板厚,與橫向供電相比,大大縮短了電流通過主板的距離,極大地減小了傳輸路徑寄生參數對電源質量的影響,電源傳輸損耗最高能降低95%。
垂直供電示意圖
圖源:analog
在橫向供電的方案中,xPU的正下方放置的是很多個高頻電容,這些低ESR電容能夠更有效地濾除高頻噪聲,減少電源紋波,提供瞬態(tài)電流,提高電源的響應速度。
在垂直供電的方案下,之前安裝高頻電容的位置需要安裝電源模塊,此次高頻電容的位置就會發(fā)生變化,一種方案是將高頻電容集成到電源模塊中,但是這種方案對于高頻電容來講,距離電源引腳過于遠,理想的解決方案是將電容分別嵌埋到xPU的基板和電源模塊的PCB中。
垂直供電方案下,高頻電容位置的變化
圖源:Murata
在摩爾定律逐漸失效的情況下,當前AI計算硬件的主要升級路徑變?yōu)椴捎孟冗M封裝和嵌埋元器件等方式來實現(xiàn)互聯(lián)堆疊的密度提升。隨著計算密度的不斷提升,散熱方面也需要使用高導熱FR-4材料或者埋嵌銅塊等方式來提高系統(tǒng)的整體散熱能力。
微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈。