強攻GPU市場，TPU芯片一夜之間迅速躥紅

2024-08-26科技

強攻圖形處理器， TPU芯片一夜成名

自 Chat GPT大火以來，各種大規模人工智慧模型的開發層出不窮，而美國芯片企業輝達更是在"百模大戰"中大賺特賺，其中最大的一筆就是 GPU。

然而，蘋果最近的一步棋卻讓輝達冷靜了下來。

蘋果在人工智慧模型上使用 TPU替代圖形處理器

輝達已經成為人工智慧計算基礎架構的領導者，在人工智慧硬體市場上也有著舉足輕重的地位，尤其是輝達。（nvn?）圖形處理器擁有80%以上的培訓市場份額，是許多技術巨頭，如亞馬遜，微軟， Meta, OpenAI等，都將其作為人工智慧和機器學習的首選。

因此，輝達在業界仍面臨眾多挑戰，其競爭對手要麽是自己研發的 GPU，要麽是在探索創新的架構。

谷歌的 TPU也是輝達強有力的競爭對手。

7月30日，蘋果公布了一項調查報告。蘋果介紹了兩個支持蘋果智慧的模型，分別是 AFM—on-device （包含30億個參數）和一個基於伺服器的語言模型AFM-server。

蘋果公司在文件中稱，他們將谷歌公司生產的兩種張量處理器（TPU）用於訓練自己的人工智慧模型，並將其整合到一大爐心片中。蘋果公司用了2048塊TPUv5p芯片，來構建適用於 iPhone及其它裝置的 AFM裝置的人工智慧模型。在 AFM伺服器人工智慧模型中，蘋果公司使用了8192顆TPUv4處理器，這是蘋果公司的核心技術。

Apple將輝達拱手相讓？（nvn?）圖形處理單元（GPU）采用谷歌的 TPU這一策略，給科技界帶來一枚重磅炸彈，令輝達股價大跌7%，創3個月來新低，市值蒸發193億美元。

行業專家稱，蘋果的這一決定暗示著，一些大的技術公司或將尋求輝達在人工智慧培訓領域的替代方案。

TPU和 GPU，哪一個更適合做大模型？

在討論哪一種更適用於較大的模型時，我們需要先了解一下這兩種技術。

GPU TPU

TPU的全稱是張量處理單元，由谷歌研發，專門用來加速機器學習任務，用於深度學習模型的訓練與推理。值得一提的是， TPU同樣屬於專用積體電路芯片，是根據客戶的特殊需要而量身定做的。

GPU最初是為圖繪制而設計的處理器，後來被廣泛套用於平行計算與深度學習。該演算法具有並列處理能力，對其進行最佳化後，還可用於深度學習、科學計算等平行計算。

正如我們所看到的，這兩個不同的芯片是不同於原來的設計目的的。

GPU具有比傳統 CPU更強的平行計算能力，因此近年來隨著大規模人工智慧模型的爆炸式增長， GPU已經成為人工智慧訓練的首選計算裝置。

然而，隨著大規模人工智慧模型的不斷湧現，計算任務呈現指數級增長，對計算資源和計算能力提出了全新的需求。GPU在人工智慧計算領域面臨著算力利用率低、功耗高的瓶頸問題， Nvidia公司推出的產品價格昂貴且供應量有限，因此，面向深度學習、機器學習的 TPU架構受到越來越多的關註。圖形處理單元在該領域中的統治地位已開始受到質疑。

早在2013年，谷歌便開始研發專門用於人工智慧機器學習演算法的芯片，並於2016年正式對外釋出了內部研發的 TPU。2016年3月， AlphaGo戰勝了李世石，2017年5月戰勝了柯潔，它們都使用了谷歌的 TPU芯片。

如果 TPU在訓練大型人工智慧模型方面表現得更好，但如果沒有明確它的"能力"，就難以令人信服。

TPU是怎樣用來訓練大模型的？

首先， TPU擁有多維運算單元，大大提高了運算效率；相較於 CPU的純量計算單元， GPU的向量計算單元， TPU采用二維乃至高維計算單元，反復摺積計算，實作數據復用最大化，降低數據傳輸開銷，提升加速效率。

其次， TPU的數據傳輸時間更短，控制單元效率更高。盡管馮-諾依曼體系結構所帶來的記憶體墻問題在深度學習領域尤為突出，但 TPU采用了更為激進的設計策略，透過減小控制單元的體積，為片上儲存與計算單元提供了更大的空間。

最終實作面向設計的人工智慧加速，增強 AI/ML計算能力。TPU架構定位精確、架構簡單，采用單執行緒控制與自訂指令集，使得深度學習計算高效、可延伸性好，非常適合大規模人工智慧訓練。

據稱，與輝達A100相比，谷歌TPUv4的功耗要低1.3-1.9倍。在 Bert、 ResNet等多種工作方式下，其效率比A100提高1.2~1.9倍；同時，其TPUv5/TPU Trillium產品的計算效能比TPUv4提高近10倍。很明顯，谷歌的 TPU產品比輝達的產品具有更高的成本和更低的能耗。

今年五月， Alphabet CEO桑達爾-皮查伊在2024 I/O2024開發者會議上公布了第六代 TPU人工智慧芯片 Trillium (Trillium)，該芯片預計將於今年年底交付使用，其速度幾乎是之前的5倍。

谷歌宣稱其第六代 Trillium芯片比v5e TPU高4.7倍，並且比v5e高67%的能量效率。這款芯片被設計用來產生大量的文本或其它內容。谷歌同時表示，到今年底，它的雲端使用者就可以使用第六代 Trillium芯片了。

谷歌的工程師們提高了高頻寬儲存能力和總體頻寬，從而獲得了更高的效能。人工智慧模型對高級記憶體的需求，已成為進一步提升效能的瓶頸。

值得一提的是，谷歌並沒有將 TPU芯片作為一款單獨的產品來出售，相反，它透過谷歌的雲端運算平台（GCP）為外部使用者提供 TPU的計算服務。

在這種情況下，谷歌的明智之處也很明顯：直接出售硬體需要高額的行政開支以及復雜的供應鏈管理。有了雲端運算的支持，谷歌能夠簡化安裝，實作和管理過程，降低不確定性，降低額外的開銷。這一模式也簡化了銷售過程，不需要增加硬體銷售隊伍。另外，谷歌在生成人工智慧方面與 OpenAI展開了激烈的競爭，如果谷歌開始出售 TPU，那麽它將同時面對兩大強勁對手輝達和 OpenAI，這或許並不是一個明智的選擇。

看完這篇文章，我們不禁要問：既然 TPU有這麽好的表現，它會不會在不遠的未來取代 GPU呢？

現在說什麽替代圖形處理器還為時過早。

這是一個很難回答的問題。

如果只討論 TPU的優點，而忽略了 GPU的優點，這可能會成為一種盲點。下一步，我們需要了解 GPU相對於 TPU如何更好地適應當前大規模人工智慧模型的構建。

我們認為 TPU的優點是高效率、高價效比；但是 ASIC芯片的高試錯率也是相當明顯的。

另外，從生態系的成熟程度來看， GPU經過數年的開發，已經形成了一套龐大且成熟的軟體及開發工具生態。多年來，眾多開發者和科研院所致力於 GPU的開發與最佳化，積累了豐富的程式庫、框架與演算法。另一方面， TPU是一個相對新的生態系，其可利用的資源和工具可能沒有 GPU那麽豐富，這就給開發者帶來了很大的挑戰。

從通用角度來說， GPU的設計初衷是為了圖形繪制，但是它的架構非常靈活，可以滿足除了深度學習之外的各種不同計算任務。這樣， GPU就可以更好地適應各種套用場景。相比較而言， TPU針對機器學習任務量身定做，在處理其它不依賴於機器學習的計算任務時，可能不如 GPU高效。

最後，顯卡市場上的競爭越來越激烈，廠商們也在不斷地進行技術革新與產品更新換代，其中最常見的就是新架構與新效能的提升。盡管 TPU的研發主要是由谷歌主導，但是它的升級和前進演化可能會比較緩慢。

總的來說，輝達與谷歌在人工智慧芯片上的策略各不相同：輝達為人工智慧模型提供了強大的運算能力，並為其提供了廣泛的編程人員支持；另一方面，谷歌利用高效的分布式計算體系結構，提升了大規模人工智慧模型的訓練效率，為人工智慧領域帶來了巨大的挑戰。這兩條不同路徑的選擇，意味著它們在各自的套用領域有其獨特的優勢。

蘋果選擇使用谷歌 TPU的原因可能是：第一，它能很好地處理大規模分布的訓練任務，提供高效率，低延時；其次，借助谷歌的雲平台，蘋果公司能夠降低硬體成本，靈活調配計算資源，並最佳化整個人工智慧研發成本。另外，谷歌的人工智慧開發生態系提供了一系列的工具與支持，讓蘋果公司在人工智慧模式的開發與部署上更加有效。

蘋果公司就是一個很好的例子。然而，相較於輝達， TPU在大模型領域的套用還是相對較少，像 OpenAI，特斯拉，字節跳動這樣的大模型廠商，其主流 AI數據中心依然采用輝達的 GPU。

所以，谷歌的 TPU能打敗輝達嗎？（nvn?）也許現在還為時過早，但是 TPU將會是一個非常具有挑戰性的角色。

圖形處理挑戰，而非 TPU

中國還有一家專門生產 TPU芯片的企業——中昊芯穎。中昊芯穎創始人楊恭一凡曾任谷歌芯片研發主管，曾深度參與谷歌 TPU 2/3/4的設計與研發工作，他認為 TPU具有大 AI模式的架構優勢。

中昊新盈"莎娜"芯片於2023年正式問世。"夏納"芯片擁有1024個高速片間互連功能，構建了" Taizel"型智慧計算集群，其集群效能比傳統 GPU提高幾十倍，為千億級參數 AIGC模型構建與推理提供前所未有的算力保證。本計畫的研究成果將使現有 GPU效能提升10倍以上，可為千億級參數 AIGC模型的訓練與推理提供前所未有的計算能力保證。這既是中昊半導體在人工智慧計算能力方面的深厚積累，更是為中國芯片在世界舞台上贏得了一席之地。

相對於 TPU, GPU面臨的挑戰更大。

一月份，來自前沿超算集群的一位研究員，利用這些 GPU中大約8%的 GPU，訓練出了一個規模為3.5的大規模 GPT模型。本計畫還將突破基於 AMD處理器的先進分布式模型訓練技術，實作對大規模模型的訓練。

同時， CUDA的生態正在逐步瓦解。今年七月，一家名為「SpectralCompute」的英國公司釋出了一款程式，該程式可對 AMD的 GPU進行原生編譯，從而極大地提升了與 CUDA相容的 GPU的效能。

英特爾也推出了高第3，目標直指輝達的p00。今年4月，英特爾釋出了一款名為「Gaudi3」的深度學習演算法，該演算法適用於大規模深度學習和人工智慧建模。英特爾宣稱，Gaudi3浮點數格式比BF16AI快4倍，儲存頻寬增加1.5倍，網路頻寬增加3倍，滿足大規模系統擴充套件需求。和輝達合作？（nvn?）相比於p00芯片，Gaudi3將其套用到 MetaLlama2模型（7 B、13 B）和 OpenAIGPT-3 （175 B）時，訓練時間平均減少50%。

另外，對於7 B、70 B參數的 Llama模型，以及180 B參數的開放原始碼 Falcon模型，預期高第3的推理效能將高於p00平均50%，推理效率平均提高40%以上。另外，高第3在長輸入輸出順序上具有較強的推理能力。

與輝達的p00相比，Gaudi3在7 B、70 B參數下的 Llama和180 B參數下的 Falcon模型上的速度要快30%。

英特爾稱，「高第3」將在今年第三季度開始銷售，第二季度銷售給 OEM廠商，如戴爾， HPE，聯想，超微，但是沒有透露高第3的定價區間。

去年11月，微軟在 Ignite技術會議上公布了其第一個國產人工智慧芯片 AzureMaia100，以及雲端運算軟體服務芯片 Azure Cobalt （Azure Cobalt）。這兩種芯片均采用台積電的5 nm制程工藝。

據報道，輝達的高端產品有時候賣到了3萬美元，而 ChatGPT所用的芯片則高達10,000個，這對於人工智慧公司而言是個不小的開銷。對人工智慧芯片有著巨大需求的技術企業都在急切地尋找其他的供應商，微軟已經開始自己研發，希望能夠在降低成本的情況下，提升像 ChatGPT這樣的智慧產品的效能。

Cobalt是128核通用芯片， Arm架構，Maia100是一種專用芯片，專門針對 Azure雲端運算及人工智慧工作負載設計，擁有1050億個晶體管。這兩種芯片都將被引入微軟的 Azure數據中心，以支持諸如 OpenAI, Copilot之類的服務。

Azure芯片部副裁拉尼-博卡爾說，微軟已開始在 Bing Office人工智慧產品上測試Maia100芯片， OpenAI是微軟的主要人工智慧合作夥伴，也是 Chat GPT的創始人。一些市場評論員將微軟推出人工智慧芯片計劃的時間與微軟， OpenAI等公司所推動的大規模語言模式的發展十分吻合。

盡管如此，微軟相信它的人工智慧芯片不會完全取代輝達。部份分析人士認為，如果微軟此次收購取得成功，它還可能有助於其在將來同輝達進行談判時處於有利地位。

除了晶片巨頭，創業公司也不缺影響。如 Groq公司的 LPU, Cerebras公司的 Wafer Scale Engine 3, Etched公司的 Sohu等。

輝達目前控制了大約80%的人工智慧數據中心芯片市場，剩下的20%則掌握在谷歌不同版本的 TPU上。未來 TPU的市場占有率是否會持續上升？能提升到什麽程度？是不是會有另外一種人工智慧芯片架構出現，將現在的市場分成三塊？這些問題都將在今後的數年中得到解答。