上周,馬斯克宣布 xAI 將開源 Grok。
剛剛,馬斯克終於兌現諾言,xAI 宣布開源了 Grok-1 的模型權重和網絡架構。
Grok-1 是一個擁有 3140億 參數的專家混合模型 ,由xAI從頭開始訓練,模型實際只有 25% 的參數被啟用,也就是實際啟用的參數數量只有 86B。
xAI 官方網誌中 提到Grok-1模型由8個專家組成,64層Transformer,每層包括多頭註意力塊和密集塊。模型的上下文長度為 8192token,采用bf16計算精度,權重使用 8bit 量化。
Grok-1 模型是在大量文本數據上訓練,訓練完成和模型權重保存截止到 2023年10月,未針對任何特定任務進行微調。
此外,還包含了模型的技術細節:
• 使用了旋轉位置嵌入(Rotary Embeddings),提高了模型的位置編碼能力。
• 擁有131,072的詞匯量,詞嵌入維度為6,144,64個Transformer層。
• 上下文長度達到8,192 token,采用bf16計算精度,對權重使用8位元量化,用於最佳化模型的執行效率和資源消耗。
程式碼和模型權重已上線GitHub,目前github上已有6.9k標星。
Grok-1采用的是Apache 2.0 license,意味著,可商用。
有趣的是,ChatGPT的賬號竟和馬斯克互掐起來了,不知道ChatGPT背後是人還是機器人。
此前馬斯克向法院對OpenAI提起訴訟,控告Sam違背公司創立初衷,不開源GPT。
如今馬斯克以身作則,率先開源自家大模型Grok, 撇開賭氣成分不談,但馬斯克的公眾形象始終是站在造福人類大眾一方,而本次Grok的開源,是給大模型開源社區帶來一些鯰魚效應,期待可以給社區帶來驚喜。
參考資料 [1] https://x.ai/blog/grok-os