TPU芯片一夜走紅，強攻GPU市場的局面已顯現

2024-08-27科技

攻克圖形處理器， TPU晶片一夕之間大獲成功

隨著 Chat GPT的火爆，各種 AI大數據建模的開發也是層出不窮，而美國的輝達則在"百模大戰"中靠著其圖形處理器進軍大型模式運算領域大獲成功，獲利頗豐。

然而，蘋果近期的一項舉措卻讓輝達稍稍冷靜下來。

Apple用 TPU代替 GPU來培訓 AI模式

難道是輝達的人？（nvn?）它是一家以 AI為核心的公司，同時也是一家以人工智慧為代表的公司。

難道是輝達的人？（nvn?）圖形處理器擁有80%以上的培訓市場，是許多技術巨人，如亞馬遜，微軟， Meta, OpenAI等，都將其作為人工智慧和機器學習的主要選擇。

所以，輝達在業界依然面對許多的挑戰，這些企業要麽是自己研發的圖形處理器，要麽就是在研究一種新型的結構。谷歌擁有獨一無二的效能，它也是輝達一個強勁的競爭者。

7月30日，蘋果釋出了他們的調查報告。蘋果推出了兩種蘋果的 AI技術，分別是 AFM—on-device （包含30億個參數）和一種以伺服器為中心的語言模式（AFM-on-device)，以及一種以伺服器為中心的大規模語言模式。

蘋果在檔中稱，他們將谷歌的兩種用於構建大規模積體電路的張力處理模組（TPU）用於培訓自己的 AI模式。Apple公司采用2048塊TPUv5p晶片來測試 iPhone及其它手機上的 AI型號。其中， Apple公司采用的是8192顆TPUv4芯片。

蘋果將輝達拱手相讓？（nvn?）使用谷歌 TPU作為顯卡的策略決定引發了技術領域的轟動：輝達股票當日暴跌7%，創3個月以來最大跌幅，總資產蒸發193億美金。

根據行業訊息，蘋果的這一舉動暗示了某些大技術企業想要收購輝達？（nvn?）GPU是用於 AI培訓的替代方案。

對於大的型號， TPU還是 GPU？

對於一個較大的型號來說， TPU還是 GPU更好一些，我們必須先理解它們。

The TPU GPU

TPU的全名是「Tensor Processing unit」，是由谷歌研發的一款特殊的人工智慧芯片，其目的就是為了加快機器學習行程，對深度學習模型進行學習與推斷。需要指出的是， TPU也被歸入專用積體電路，也就是根據具體需要而量身定做的芯片。

圖形處理器大家都很熟悉。GPU作為一種初始套用於影像繪制的處理器，已經在平行運算與深度神經網路中得到了廣泛套用。其高效的並列運算效能，對其進行了進一步的最佳化，使其能夠很好地套用於諸如深度學習、科研等多個領域的平行計算。

可以看到，這兩款芯片各有其獨特的用途，而非原先的設計。

相對於常規 CPU, GPU因其具有的可並列性，在處理大規模的數據以及復雜的運算方面有著得天獨厚的優勢。近幾年，伴隨著海量的 AI數據集的爆發， GPU已經逐漸成為 AI學習的優先選擇。

但是，隨著大數據時代的到來，其處理的規模與復雜性呈現指數式的增加，對其處理效能與資源的需求也越來越高。GPU面臨著算力利用率低和能耗高等問題， Nvidia公司推出的 GPU產品價格昂貴且供應稀缺，因此面向深度學習與機器學習的 TPU體系結構備受重視。圖形處理單元在該區域中的支配作用正逐步引起人們的懷疑。

從2013年起，谷歌便已著手開發用於 AI計算的 AI芯片，並於2016年推出了一款獨立開發的 TPU芯片。2016年三月， AlphaGo擊敗了李世石，2017年5月擊敗了柯潔，使用了谷歌 TPU技術。

要說 TPU對於培養一個大規模的 AI模式來說是一種更好的選擇，但若不解釋一下其"能力"，那就難以令人相信了。

TPU是怎樣為一個大的模型提供培訓的？

首先， TPU擁有多個維度的運算單位，大大提升了運算速度；相對於 CPU上的純量型和 GPU上的向量型， TPU采用了兩個維度乃至更多維度的計算單位，透過迴圈內的摺積操作，最大化了數據的重用，減少了數據的傳遞開銷，提升了系統的效能。

其次， TPU具有更少的時間傳遞時間和更高的控制單位。由於馮-諾依曼體系結構所帶來的儲存墻壁問題， TPU則采取主動式的數據傳送方式，透過減小控制器的體積，將更多的儲存與運算單元留給了更大的儲存空間。

最終實作面向人工智慧的高效能計算平台，提升 AI/ML演算法的效能。TPU架構具有位置準確、體系結構簡單、可客製的單執行緒控制、可客製的特性，使得其在深度神經網路中具有高效、可擴充的特性，更適合大規模的 AI訓練。

谷歌的TPUv4的功率比輝達的A100要小1.3-1.9，在 Bert, ResNet等多種工作方式中，它的功率是A100的1.2-1.9；與TPUv4相比，其TPUv5/TPU Trillium的運算能力可再提高2/10。可以看出，谷歌的 TPU在價格和能耗上要優於輝達。

在五月的2024 I/O2024開發會議上， Alphabet CEO桑達爾-皮查伊公布了其第6代 AI芯片（Tensor ProcessingUnit, TPU) Trillium (Total Processing Unit，簡稱 Total Processor Unit)，稱其效能比上一款快5倍，有望在年內推出。

根據谷歌的說法，第6代的 Trillium處理器將會擁有4.7倍於 TPUv5e的運算能力和67%的能量效率。這種晶片被設計用來產生大量的文字或其它東西。谷歌也已經公布了它的第6代 Trillium處理器，它的雲端運算使用者將在今年底之前獲得它的產品。

谷歌的工程師們已經獲得了更好的表現，他們增加了更多的高頻寬的存貯能力和總體的頻寬。AI模式對儲存容量要求很高，已成為制約其效能提升的一個瓶頸。

要知道，谷歌並非單獨出售 TPU芯片，相反，它透過谷歌雲端系統（GCP)，將其用於面向外界的使用者。

這個案例也顯示出谷歌的明智之舉：出售硬體會導致高額的行政開支以及對供應鏈的復雜控制。有了雲端 TPU，谷歌能夠簡化安裝，部署，管理過程，降低了不確定因素，降低了管理成本。該模型也能使行銷過程更加簡單，不需要增加一個新的硬體銷售隊伍。另外，谷歌在產生型人工智慧方面正在和 OpenAI進行著一場惡戰，而一旦谷歌推出 TPU，就會面臨輝達和 OpenAI這兩個強勁的對手的挑戰，而這樣做或許並不是一個聰明的選擇。

本文提出了這樣一個疑問： TPU在未來的某一天會代替 GPU嗎？

也許說替代圖形處理器還為時過早。

這並不是一個容易的問題。

如果僅僅強調 TPU的優點，而忽略了 GPU的優點，那就是一種盲區了。其次，我們要知道 GPU相對於 TPU而言有多好，可以用來訓練大規模的 AI模式。

我們可以看出， TPU具有優異的能量效率和計算能力，但是它的高測試代價也日益凸顯。

從其生態環境來看， GPU歷經數年發展，已形成了一套巨大且完善的軟體與開發工具生態。眾多科研院所和軟體開發商長期致力於 GPU平台的研發與最佳化，積累了大量的程式庫、框架與演算法。而 TPU的環境則是一個比較新的環境，其所擁有的資源和所需的裝置也沒有 GPU那麽多，這就使得使用者在自訂和最佳化上變得更加困難。

從通用角度來說， GPU的初衷是為了繪制影像，但是它具有足夠的彈性來應對除了深度神經網路之外的多種數據處理任務。這樣， GPU就可以更好地適用於各種應用程式。相反， TPU是專為機器學習而開發的，它在解決其它與機器學習無關的運算方面，不如 GPU高效。

最終，顯卡的市場上充滿了競爭，廠商們在持續地推進著新的技術革新與產品升級，同時也在進行著新的體系結構與效能的提升。盡管 TPU的研發大部份是谷歌在做，但是它的升級和後續發展都比較緩慢。

總的來說，谷歌與輝達在 AI芯片方面的策略各有千秋：輝達以其超強的計算能力與廣闊的研發資源，突破了 AI模式的瓶頸；谷歌以其高效能的分布式計算體系結構，提升了 AI模式的學習速度。這兩種截然不同的發展路線使得兩個公司在其所處的行業中都具有獨一無二的實力。

Apple之所以選擇使用谷歌 TPU，主要是因為：第一， TPU可以很好地完成大規模的、分散的培訓工作，並且可以在很短的時間內實作高效率的運算；其次，利用谷歌的雲端技術，可以減少硬體開銷，對運算資源進行彈性調配，從而達到最優的 AI研發費用。另外，谷歌 AI研發的生態圈也為 Apple在 AI模式的發展與配置上帶來了大量的工具與支援。

Apple就是一個很好的例項，用 TPU來培養大型號。然而，相對於輝達而言， TPU在大規模建模方面的運用仍然很有限，而像 OpenAI，特斯拉，字節跳動這樣的大廠商，他們的主流 AI數據中心，依然采用輝達的 GPU。

所以，谷歌的 TPU能打敗輝達嗎？（nvn?）也許 GPU還言之過早，但是 TPU肯定是一款非常有挑戰性的遊戲。

圖形處理挑戰，而非 TPU

中國還有一家企業在 TPU晶片上押註——中昊芯穎。中昊芯穎的創始人楊恭一凡，曾經是谷歌的一名芯片研發骨幹，曾經深入谷歌 TPU 2/3/4的研制工作，他認為 TPU的優點就是針對 AI大模式的構建。

中昊新盈"莎娜"芯片於2023年正式問世。"莎娜"憑借其獨特的1024塊高速片內連線功能，搭建了" Taizel"大型智慧運算簇，其簇效率較常規 GPU提高幾十倍，可為百億級以上的 AIGC模型的學習與推斷提供強大的運算資源保證。本計畫提出的演算法可實作10倍於常規 GPU的運算速度，可支持百億級以上的 AIGC模型的學習與推理。這既是中昊半導體公司在 AI運算能力方面的深厚積澱，更是為國內半導體產業開啟了一扇通往世界大門的大門。

GPU面臨著比 TPU更大的挑戰。

在 GPU通路開發領域，輝達最大的競爭對手是 AMD，一名研究員在一月份的時候，就已經在 Frontier的超算上，利用該處理器的8%的 GPU，對 GPT進行了最佳化。先鋒超算系列全部建立在 AMD的硬體基礎上，包括37888顆MI250X圖形處理器以及9472顆 Epyc 7A53 CPU。同時，本計畫也將解決基於 AMD處理器的先進分布式學習模式難以實作的問題，為基於 AMD的大規模數據建模提供有效的解決方案。

而在這個過程中， CUDA的生態正在逐步瓦解。七月份，英國光譜公司釋出了一個程式，將 CUDA源碼直接嵌入到 AMD顯卡中，從而極大地提升了 AMD顯卡與 CUDA相容的效能。

英特爾在四月份公布了面向深度學習與大規模產生 AI模式的Gaudi3。英特爾表示，「高第3」在BF16浮點格式下，為其上一代提高了4倍的 AI運算功能，1.5倍的儲存頻寬和2倍的網路頻寬，使其能夠滿足大規模的套用需求。和輝達合作？（nvn?）相對於p00,Gaudi3可以將 MetaLlam2 （7 B）、13 B （13 B）和175 B （175 B）的GPT-3 （3）學習速度可降低50%。

另外，對於 Llama模型（7 B、70 B）和開放原始碼 Falcon （180 B）的情況下，高第設計的3在推斷效能上預期會超過p0050%，並且在邏輯上提高了40%。另外，高第3在處理長度比較大的數據時，其推理能力更強。

相對於輝達p00,Gaudi3在將其用於 Llama和 Falcon模式的7 B和70 B的情況下，其計算速度可增加30%。

英特爾稱，「高第3」將在今年第3季開始銷售，而在第2季則會銷售給戴爾， HPE，聯想，超微這樣的 OEM廠商，但並未披露高第3的定價區間。

微軟在今年11月的 Ignite科技會議上公布了其自有品牌的第一個 AI晶片， AzureMaia100，以及雲端運算的軟體服務晶片。這兩種產品都是在5 nm工藝下，台積電生產的。

據報道，輝達生產的一些高檔裝置價格為3萬至4萬美金，而 ChatGPT則采用了10000個左右的芯片，這對於 AI公司而言是個不小的開銷。對於 AI芯片的需求量很大的技術企業，都在瘋狂地尋求可供選擇的材料，而微軟則是選擇了自己的技術路線，以提升諸如 ChatGPT之類的產生型 AI產品的效率，從而進一步減少生產成本。

Cobalt是一個128核心的、通用的 Arm體系結構，而Maia100則是一個規模達10十億個晶體管的專用積體電路，專門針對雲端運算環境下的雲端運算和計算任務。這兩種產品均將引入微軟 Azure的數據中心，以滿足諸如 OpenAI, Copilot這樣的其他一些套用。

Azure晶片事業部的副總經理瑞尼·博卡爾說，微軟公司已在 Bing Office AI系列中對Maia100處理器進行了試驗，而微軟的另一家人工智慧合作夥伴—— Chat GPT開發者 OpenAI也正在進行 Beta版。有些市場觀察員把微軟提出人工智慧芯片計劃看作是一個巧合，就像微軟， OpenAI這樣的公司所宣傳的主流語言模式才是一個開端。

盡管如此，微軟仍然沒有看到它的 AI芯片能夠完全取代輝達的技術。部份分析人士相信，微軟此舉若獲成功，將有助於其在將來同輝達進行會談時處於有利地位。

不僅是那些大公司，新興公司也在忙碌著。比如 Groq公司的 LPU, Cerebras公司的 Wafer Scale Engine 3, Etched公司的 Sohu等。

輝達占據了大約80%的 AI處理器的市場，剩下的20%被谷歌不同的 TPU所壟斷。TPU在將來會不會持續成長？會有多大的提升？是否會有另外一種結構的 AI芯片，將當前的市場分成三種型別？在接下來的數年中，我們將會發現所有的問題。