據Alphabet(谷歌母公司)一位高級專家稱,數據中心GPU的使用壽命可能僅為1到3年,具體則取決於其利用率。由於GPU幾乎承擔了AI訓練和推理的所有負載,所以其效能下降的速度比其他任何元件更快。
雲巨頭們營運的數據中心中,GPU在AI工作負載中的利用率在60%到70%之間。據Tech Fund援引Alphabet一位首席GenAI架構師的觀點稱,在這種程度的利用率下,GPU的壽命通常只有一到兩年,最多只有三年。
這位架構師將這一言論發表在美國社交媒體X上,引發一系列討論。盡管GPU僅1-3年的壽命看似有些誇張,但卻有其合理性,因為用於AI和HPC套用的數據中心GPU的TDP達到甚至超過了700W,這對於矽芯片是實實在在的壓力。
並且,這位GenAI架構師還表示,延長GPU使用壽命的方法之一就是降低其利用率,這能讓GPU效能下降的速度變慢,但投資報酬率的周期也會拉長,並不能滿足業務對快速敏捷的要求,因此雲巨頭們通常選擇了讓GPU保持更高的利用率。
無獨有偶, 此前Mete也釋出了一項研究 (【 AI訓練54天,每3小時就故障一次,GPU故障率是CPU的120倍! 】),詳細描述了其在16384個Nvidia p00 80GB GPU組成的AI集群上訓練Llama 3 405B模型的故障率情況。據數據顯示,該AI集群訓練模型時的利用率約為38%(基於BF16精度訓練), 在419次突發故障導致的訓練停頓中,148次(30.1%)是由於各種GPU故障(包括NVLink故障)導致的,72次(17.2%)是由HBM3高頻寬記憶體故障引發的。 HBM3通常也是GPU上的必備核心元件之一,如果兩者相加的話,那麽在 利用率為30%左右時,GPU的故障率約為47.3% 。
如果以Meta的數據來看,p00的品質似乎還不錯,其年化故障率大約在9%左右,三年內的年化故障率為27%,盡管GPU的故障率會隨著使用時間的延長而不斷增加。
而另外需要註意的是,Meta訓練集群中的利用率為30%,如果按照Alphabet公司GenAI架構師的觀點,GPU以60%-70%利用率(2倍於Meta)執行,那麽GPU的故障率也會成倍增加。