文|邱曉芬
訪談|邱曉芬 楊逍
編輯|蘇建勛 楊軒
反抗
一個隱秘的微信群,在上海張江的AI芯片公司人士中口口相傳,群名叫「國產芯片抱團取暖群」,進群的必須是國產芯片公司員工,在這裏,即使是競爭對手,也會交換資訊,互換商務資源。
因為輝達的存在,國產芯片公司的銷售,多少都嘗過一點屈辱的滋味。
李明(化名)是一家國產GPU公司的銷售,這一輪AI熱潮掀起時,他曾信心滿滿地去見客戶,可來不及寒暄,客戶開口就是連環追問:
「你們的東西,和輝達A100芯片相比,啥差距?輝達有NVLink,你們有什麽?」(作者註:NVLink是把多個GPU芯片連線起來,避免GPU的數據搬到CPU計算,以提升計算效率)
眼見用產品和技術打動不了客戶,李明的團隊開始想辦法托關系,找「更有力的人士」去遊說,但客戶還是擺擺手,「我們還是想用輝達」。
輝達A100,826平方毫米的面積上,塞了540億個晶體管,是開啟AI大模型魔盒的鑰匙。
大模型訓練,像是在海量數據中「煉丹」,目的是找出數據變化的規律; 而用輝達芯片訓練大模型,就好比讓幾億個智商200的人來算數,而其它芯片的效果,只等同於找了幾千個智商100的人來計算。
輝達A100 圖片來自輝達官網
最頂尖的科技公司,都在瘋狂搶購輝達。誰擁有最多的輝達高端GPU,誰就有機會訓練出更聰明的大模型。
公開資訊顯示,OpenAI目前掌握著全世界最多的輝達高端GPU,至少達五萬片;谷歌、Meta也是萬卡集群的擁有者(2.6萬左右);而國內罕見有輝達高端GPU萬卡集群的互聯網大廠,是字節跳動(1.3萬)。
輝達壟斷著全球產業鏈上最好的資源——擁有台積電最充足的芯片先進制程產能、籠絡著全世界最大的工程師使用者群體,掌握了一眾AI公司的計算命脈。
絕對的壟斷,往往會滋生不滿、憤怒和逃離。
「今天所有做大模型的,基本都在嚴重虧錢!只有一家在賺錢!輝達」,一位行業人士語氣忿忿不平—— 「輝達的利潤率讓所有的客戶都很難受,很傷害AI行業!」。
財報顯示,輝達毛利率達到71%,其中,熱門產品A100和p00系列,毛利率高達90%。作為一家硬件公司,輝達居然享有比互聯網軟件公司更高的毛利率。
高價暴利,讓輝達的大客戶開始逃離。7月30日,蘋果宣布其AI模型用8000片谷歌TPU來訓練,而輝達含量是0;訊息一出,7月31日,輝達股價下跌超7%,創下近三個月最大跌幅,市值蒸發1930億美元, 幾乎跌掉了一個拼多多。
輝達最近一年股價跌幅圖
對於所有想在輝達身上撕下一塊肉的國內GPU企業來說,2022年是個轉機之年,美國數輪禁令下達,輝達迫於生計,在中國持續推出閹割版本芯片,但又被快速禁用:
2023年10月,A800/H800/L40/L40S/RTX4090被禁止向中國出口;
2024年6月,輝達創始人黃仁勛稱,將向中國推播閹割版本的L20、p0芯片。
然而,閹割版本引發了行業更激烈的聲討。輝達即將推播的p0,價格雖是輝達p00的一半,效能卻前者只有1/3。一位AI行業人士怒斥——「 這不就搶錢嗎?純純智商稅!」
當輝達的客戶開始不滿與憤怒,那些想代替輝達的國產芯片公司,卻在這種情緒中得到了「滋養」。
過去,他們只能跟在輝達的屁股後面,艱難分食一點點蛋糕碎屑。半導體分析公司TechInsights的一項數據顯示, 2023年,輝達在數據中心GPU出貨量市場份額高達98%,國產芯片和一眾芯片巨頭加起來, 只占微弱的2%。
如今禁令襲來,完美的輝達在中國市場被撕開一道口子,誰能替代輝達?國產AI芯片廠商看到了生機。
「今年哢嚓,輝達在中國的90%市場都給釋放出來了, 能不能搶到,各憑本事 」,一家國產GPU公司創始人表示。
36氪曾在2021年發表過【深氪|寧德時代:萬億電池帝國的裂縫】,在動力電池行業,寧德時代一騎絕塵,被競爭對手們虎視眈眈。
如今,在AI芯片領域一家獨大的輝達,也被諸多同行視為眼中釘、肉中刺,但輝達的不同在於,它的壁壘更高,與對手們的差距更大。
我們嘗試透過輝達對手們的反抗,去找到「輝達的裂縫」,放眼GPU行業,國產GPU、AI芯片廠商雖然力量孱弱,但他們更懂中國市場,打法更加本土化;而諸如英特爾、AMD等老牌芯片巨頭,則有著更充足的糧草彈藥,正面對擊輝達。
短期內,輝達不會被打倒,但它也不會毫發無傷,這註定是一場血腥的戰爭。
突圍
想突圍,就要找到對手的弱點。 輝達的弱點之一是:傲慢。
芯片行業,本質上是一個To B軟件行業。客戶需要芯片廠商「陪伴感」的服務,比如把硬件偵錯好、把軟硬件相容做好,陪伴到位了,客戶才有黏性,芯片產品就不容易被替換。
但多位國產芯片人士告訴36氪,在中國市場,除了像BAT、字節這樣幾十億規模的大采購方,其余大部份公司交易額縱使達幾千萬,幾乎很難得到來自輝達的售後服務。
也就是說,當使用輝達芯片的中國工程師們有疑惑時,只能靠自己到輝達官網上搜尋文件,或者去社區自學。
和輝達合作時,中國客戶們的種種需求經常得不到滿足。 一位芯片行業人士告訴36氪,輝達在中國一般會推最高配、最貴的全套方案,而當客戶提出針對特定場景的客製化要求時,也一般會被否掉,客戶們買完卡後,要「自己琢磨,或者再找厲害的演算法公司搞定」。
輝達的這種做法,積累了不少中小客戶的抱怨。「輝達如今作為大廠,對小客戶已經不會像過去那樣重視,他們的產品沒有挑戰者,不需要去費力討好客戶」,前述人士表示。
但在過去,輝達生態的崛起其實印證了服務對於芯片行業的重要性:2006年,CUDA生態剛起步時,輝達產品和如今的國產芯片一樣並不出色。但輝達團隊先從高校的科研團隊推起,再滲透到每一個細分行業的初創公司做軟硬件適配,才有了如今的大片江山。
NVIDIA p00 圖源:輝達官網
中國芯片廠商們,也領悟到這一點,嘗試從客戶服務開始切入。
國內某家不願具名的AI芯片公司,2023年以來,嘗試讓後台的研發人員走到一線親自服務——不僅要駐場聯合調教,在銷售打單後,給客戶專門拉個有研發人員的小群。客單價小到幾百萬、幾十萬不等,都能享受7×24小時的咨詢。
光提供本地化的貼心服務遠遠不夠,在輝達中國大撤退之余, 芯片行業而早已不簡單是芯片產品本身對決 ,更考驗著各自對時間視窗期的把握。中國芯片廠商就像一群狼撲上來,轟轟烈烈的打單開始了。
華為來勢最兇猛。華為此前聯合訊飛,釋出的器材「星火一體機」上,就搭載了「昇騰910B」。
這顆芯片,曾號稱單卡能力「對標輝達A100」。不為人知的是,光鮮案例背後艱難的一面——36氪了解到,華為對此不惜人力成本,調配了幾百名工程師下場幫訊飛調教參數。
華為和訊飛釋出星火一體機,圖源訊飛
盡管這被行業稱為「手工打造」,但標桿案例一出,許多大模型公司、互聯網公司都對華為投擲了測試的橄欖枝。
一家國產芯片銷售驚訝發現,自從去年7月份至今,只要是公開招標的智能算力中心專案,都能看到華為級別不低的管理層在那駐場,「華為如今一個專案可以派幾百個人上去服務,甚至一些關鍵專案不惜虧本,從別的專案獲得收入」。
前述不具名芯片公司,也配齊了200名鐵血銷售——在國內芯片行業,這都是一個相當罕見的配置。他們的銷售團隊從大模型落地最火熱的三個領域開始入手,金融、法律、工業,幾乎出現在每一場與算力相關的展會, 「芯片行業,資源第一,跑的慢了就死掉了」。
國產芯片一場隱秘的價格戰也開始了。
一位芯片行業人士告訴36氪,他們的目標是,不惜單價,也要拿下更多標桿智能算力中心的單子。36 氪觀察到,有的國產公司推理卡,為了降低成本,不惜把價貴的HBM(高頻寬記憶體)拿掉,甚至 以低於成本價50%的價格在出貨。
「不管怎麽樣,大家還是希望從各個切入點突破,各自從輝達那切走一小小塊蛋糕,讓輝達不再是一家獨大」。
但現實卻是殘酷的,具體到產品上,國產AI芯片難免出現種種問題。
一位芯片人士向36氪舉例:同樣處理一個數據集,用輝達的A100集群來跑,可能只需要十天,但用某些國產芯片產品,可能要跑上好幾個月。 國產芯片硬件上積累的時間太短,又缺先進制程,硬件上的差距,導致使用效率不高。
軟件短板也很明顯。另一位行業人士測試發現,當使用國產芯片跑大模型時,若要在上面做更多酷炫套用,基礎大模型做一旦改動,國產芯片就容易發生當機,「很多情況下,國產芯片大家基本是捏著鼻子用起來」。
如今,各家真正看清了眼前的「圍剿」策略,也逐漸分化出了更現實的路徑:
盡管還有少數派繼續往萬卡集群進發,著重訓練場景,和輝達硬剛,其中以摩爾執行緒、華為為代表;但更多數派的選擇是,轉而更關註大模型/小模型在各行各業的落地,從對硬件、軟件要求都不高的推理場景抓起,以燧原、天數智芯等為代表。
(36氪註:大模型有訓練和推理兩個環節:訓練是從幾十億數據庫中尋找規律的過程,是 「造」 大模型;推理是在 「用」 大模型的過程,難度更小、 對軟硬件要求更低 、與產業連線更緊密)
摩爾執行緒在2024年人工智能大會上釋出誇娥萬卡集群 36氪拍攝
「我們如今沒有盲目追趕輝達,我們追不起,不敢盲目做超大算力的芯片」,一位芯片行業人士直言。
國內芯片廠商們一個現實的考量是,輝達的 主要精力並不在此,國內廠商為此避開了輝達的正面戰火。
此前,大部份公司基於成本考慮,多采用輝達消費級遊戲顯卡4090來跑推理——這些卡的問題一堆:功耗過高、記憶體不夠、被禁用。輝達官方也不允許這些消費級顯卡被用於大模型推理。
國產芯片公司從輝達這一空白處切入。天數智芯、燧原今年都在猛推對標4090的推理卡,打出了大記憶體、低功耗、供應穩定的賣點。
國產芯片廠商也明確了找準細分市場的重要性。比如則針對一些功耗敏感的場景,主打低功耗小芯片;或者紮進影片最佳化等細分場景,做小而美的生意。
巨頭戰場,劍拔弩張
當國產GPU公司將「超越輝達」寫進PPT,這更像一種美好的願景,這群公司成立時間不長,迎上了國產替代的風口,即便只超越一點,也被視作是壯舉,輝達之於他們,是對手,也是標桿。
但論及與輝達輩分相當的英特爾、AMD,氣氛就更加劍拔弩張。
「 我們內部將輝達當作死敵 」,AMD的一位MI系列產品線的研發人員告訴36氪。
在今年6月的台北電腦展(Computex 2024)上,AMD創始人蘇姿豐(她還是輝達創始人黃仁勛的表親)也首次明確了未來AMD在GPU上的產品節奏——每年叠代一款新的GPU產品,和輝達更新節奏保持一致。
輝達幾乎每上一款GPU,AMD都會第一時間從市場上買回來拆機,與還沒上市的產品做對比。
「這裏要加點feature(指標)、那裏參數要拉高」,他們追求的是,「硬件上不能落後於輝達,參數上微贏」,前述人士對36氪提到。
蘇姿豐在今年台北電腦展上釋出Instinct MI325X
2023年以來,AMD中國生態合作夥伴們,幾乎每隔兩天,就會收到來自AMD的軟件最佳化新訴求。為了推廣他們的GPU,AMD高管們有時還會要求更優勢的CPU部門,搭配著GPU去打單,頂著CPU可能賣不出去的風險。
「 AMD的人天天‘燒香拜佛’,就希望我們把生態搞起來 」,一家生態公司高管表示,據他透露,目前 國內已經有10多家雲廠商和To B客戶 ,在和AMD芯片相關的適配和效果驗證。
相比於一眾焦灼的國產芯片廠商,國外芯片巨頭們在硬件層面的優勢在於,擁有先進制程和HBM產能,因此,AMD、英特爾的產品,相比於輝達產品其實不會有太大的差距,某種程度上甚至更優異。
官方的數據顯示,AMD的產品(2023年12月釋出的MI300X)此前宣稱算力是輝達p00的1.2倍;
英特爾的產品(2024年4月釋出的Gaudi 3)在能效和推理效能上也遠超p00。當然,也更便宜,AMD的GPU價格大概是輝達對標產品的七八成。
但所有和輝達正面硬剛的廠商都面臨著一個共同的難題: 大家的硬件如何有優勢,都因軟件劣勢而黯淡,如同木桶的短板。
在GPU還只能用於圖形計算的年代,輝達推出的軟件平台CUDA,相當於給開發者提供了一套編程介面,讓他們能最熟悉的程式語言,在GPU上自如編寫計算程式。
「我給你們打個比方,CUDA為什麽超越不了,就好比你學會一種語言,這麽多年,都是用這個語言幹活的,如果我讓你換一套語言,你會不會很難受,會不會不願意?」一家芯片公司員工這樣給36氪舉例。
CUDA作為輝達軟件生態壁壘最深厚之處, 縱是家大業大的英特爾、AMD也無法短時間內彎道超車。
一位英特爾GPU團隊前員工告訴36氪,他們曾經安排全球3000多名工程師、投入了三四年,卻只把精度從0%提升到4%——他們用英特爾的芯片轉換一張人像,等待許久,資訊遺失到「已看不出是一張人臉」。
英特爾CEO基辛格釋出Gaudi系列芯片
「雞生蛋還是蛋生雞」的謬論再現。正是由於AMD和英特爾的GPU用的人不多,其及對應的軟件平台(ROCm、oneAPI)用的人也更少,因此很難有人能把它們真正的硬件能力完全發揮出來。
「輝達的CUDA一直有那麽多開發者在上面叠代演算法,幫輝達把推理和訓練做得很高效,導致輝達一直能有議價權,他也永遠知道他下一個芯片應該咋做,但這是AMD和英特爾都很頭疼的事」,一家AMD生態公司CEO直言,如今 AMD的軟件工具ROCm,「就像20年前的輝達CUDA一般」。
但對於下遊客戶來說,風險正是由此而生。
驗證大模型本就是一項有不確定性的實驗,若還要在一個沒有被驗證過的芯片上跑,相當於把兩個不可控的變量放在一起——拋棄輝達,意味著要支付巨大遷移成本,承載不確定性。
盡管如此,圍剿輝達,對於AMD和英特爾這兩家來說,依舊是一場不得不打的仗。
全球芯片架構三分天下:X86架構指導著PC領域,是英特爾和AMD的天下;移動市場是Arm的天下;輝達則主導著人工智能市場。
在全新AI革命引領時代的近一年半,輝達一度跨過3萬億美金市值大關,如今也相當於7個英特爾+AMD市值的總和。
時隔20年後,芯片巨頭們對輝達的「圍剿」, 是又一場焦灼的戰事,這也是一場後知後覺的反撲。
真正的裂縫
當國內AI芯片公司組成螞蟻雄兵,AMD和英特爾全力以赴,遭遇此等圍追堵截的輝達,真的被撼動了嗎?
輝達帝國的裂縫,正在悄悄蔓延。
一個讓輝達必須警惕的訊號是,OpenAI、谷歌、微軟……這些因AI信仰,為輝達充值的大客戶們,正邁出「反輝達」第一步。
自研芯片是各家籌謀已久的棋局。一位谷歌TPU團隊的前核心員工告訴36氪,用掉了世界上1/4算力的谷歌, 「可能年底就不對外采購芯片了」。
過去谷歌自研TPU更多基於成本考慮,比如擔心輝達隨意漲價,或者供應不夠穩定,如今谷歌的造芯策略更為激進—— 「幾乎是不計代價和成本投入」。
OpenAI則有無數手準備,他們計劃籌資高達7萬億美元,建立一個全新的AI芯片帝國。
在國內,36氪也從多方了解到—— 目前輝達在國內最大的買方,阿裏、字節、百度,基本都在秘密研究用於大模型訓練的芯片。
海外雲廠商、大模型廠商、明星芯片廠商產品進展,36 氪綜合資訊整理、制圖
不過,自研芯片畢竟是一個長遠之計,這些大客戶們短期內的另一項方案是,嘗試輝達對手們的產品,減少對輝達的依賴。
AMD就是這個Plan B。一位AMD內部人士告訴36氪, AMD的GPU產品已經在歐洲、美國、南韓等地,開啟了大客戶市場—— 微軟已經采購上萬片AMD的產品,特斯拉、Midjourney、美國國家實驗室、南韓電信也都已批次提貨。
在國內,AMD生態公司員工陳文表示,AMD某型號加速卡在2023年有幾百片出貨,雖不多,「但AMD的這款產品,此前在國內幾乎查無此人」。
根據AMD方面此前樂觀預計,在2024年年底,數據中心GPU將給AMD帶來高達20億美元的收入。
而中國芯片廠商的螞蟻雄兵,雖然尚未對輝達造成實質性威脅,但星星之火,也有漸起之勢。
36氪了解到,如今,國產訓練、推理芯片的銷售,已經躍進了一個新台階——一個令人欣慰的積極訊號是,國內公認最難打單的互聯網公司、大模型公司,已對國產芯片廠商開了口子。
據36氪了解,目前, 昇騰芯片已經艱難突圍進百度在內的互聯網公司體系。
此外,國內諸如智譜AI、MiniMax、階躍星辰等AI公司,都在訓練萬億參數規模的大模型,但在輝達高端芯片有限的情況下,大模型公司們普遍選擇「混訓」(即輝達+其他芯片),比如, 智譜AI的集群儲備了近半的昇騰芯片。
另外,天數智芯、燧原的推理芯片產品去年以來,雙雙有了數萬片的出貨,出貨渠道包括國內各大智算中心,前者打進了大模型廠商百川的供應鏈;百度昆侖芯這邊,過去兩代推理芯片累計出貨量3-5萬片,來自百度和外部渠道的出貨量已各占一半。
「輝達現在的價格和供應水位,正處於試探大家幹不幹、怎麽幹的邊界線上」 ,一位行業人士直言。
輝達創始人黃仁勛 圖源視覺中國
如果把眼光拉得更到未來三五年,輝達新的威脅也在逐漸閃現。
行業裏面也出現了GPU之外的全新的AI芯片架構——比如此前推出LPU架構的矽谷芯片公司Groq,號稱執行大語言模型比輝達的GPU「速度快了十倍」;
還有釋出了大模型ASIC芯片的矽谷芯片Etched,號稱比輝達GPU「快了一個數量級」。這些芯片創業公司,背後站著OpenAI這樣的明星投資陣容。
36氪了解到,國內今年以來也冒出了全新的AI芯片創業公司。比如,上海市近來秘密支持了兩家全新的AI芯片公司。
一家國產TPU公司「中昊芯英」CEO楊龔軼凡表示,GPU的整體晶體管利用率只有20%,其實缺陷很明顯,相比之下,TPU和ASIC等新的架構雖然通用性不強,但晶體管利用率能夠達到60%-100%,「未來三五年國內外必定出現一大堆GPU架構之外的AI芯片」。
星星點點,足以讓輝達這個巨物被撼動。
「你以為輝達就像是外表看來一騎絕塵無對手?真不是」,一位輝達員工告訴36氪。正如黃仁勛經常掛在嘴邊的一句話,「我們距離倒閉,只有30天的時間 」。
輝達做了十幾年的準備,再撞上OpenAI這樣的天才公司,才共同催化才出現了輝達的奇跡。在過去,半導體行業最不缺乏彎道超車巨頭的故事。
圍剿輝達之戰的硝煙,早已燃起。
end
end