開源AI定義之爭引發激烈辯論，正式定義呼之欲出

2024-08-31科技

隨著人工智能技術飛速發展，關於「開源AI」這一術語的爭議愈發激烈。開源倡議組織（OSI）最近公布了其「開源AI」的最新草案定義，旨在澄清這一術語在迅速變化的領域中的模糊使用。這一舉動發生在一些公司如Meta在釋出訓練有素的AI語言模型權重和程式碼時，使用「開源」標簽卻帶來了限制，引發了自由軟件倡導者之間關於AI背景下「開源」真正含義的激烈辯論。

Meta的Llama 3模型雖然可以自由獲取，但由於公司規模或使用模型產生的內容類別而施加了使用特許限制，因此不符合OSI為軟件定義的傳統開源標準。AI影像生成器Flux是另一個標榜「開放」但並非真正開源的模型。由於這種模糊性，我們通常用「開放權重」或「源可用」等替代術語來描述包含程式碼或權重限制或缺少配套訓練數據的AI模型。

為了正式解決這個問題，以倡導開源軟件標準而聞名的OSI召集了一個約70名參與者的小組，包括研究人員、律師、政策制定者和活動家，來自Meta、Google和Amazon等大型科技公司的代表也加入了這一團隊。該小組當前的草案（版本0.0.9）定義強調了與定義自由軟件相似的「四大基本原則」：允許AI系統的使用者在未經特許的情況下使用它用於任何目的，研究其工作原理，為任何目的修改它，以及分享修改或不修改的版本。

透過為開源AI建立清晰的標準，該組織希望提供一個基準，用於評估AI系統。這可能會幫助開發者、研究人員和使用者對他們建立、研究或使用的AI工具做出更明智的決策。

真正開源的AI也可能揭示AI系統的潛在軟件漏洞，因為研究人員將能夠看到AI模型背後的工作原理。與此方法相比，像OpenAI的ChatGPT這樣的不透明系統，不僅僅是一個帶有花哨界面的GPT-4o大型語言模型——它是一個專有的模型和過濾器的互鎖系統，其確切架構是一個嚴密守護的秘密。

OSI的專案時間表顯示，預計在2024年10月在北卡羅來納州羅利舉行的All Things Open 2024活動上宣布「開源AI」定義的穩定版本。

「無需特許的創新」

在5月的新聞釋出會上，OSI強調了定義開源AI真正含義的重要性。OSI的執行董事Stefano Maffulli說：「AI與常規軟件不同，迫使所有利益相關者重新審視開源原則如何適用於這個領域。OSI相信每個人都應該保持對技術的代理和控制權。我們還認識到，當清晰的定義促進透明度、協作和無需特許的創新時，市場就會繁榮。」

該組織的最新草案定義不僅涵蓋了AI模型或其權重，還包括了整個系統及其元件。

要使AI系統符合開源資格，它必須提供OSI所謂的「首選修改形式」的存取許可權。這包括有關訓練數據的詳細資訊，用於訓練和執行系統的完整原始碼，以及模型權重和參數。所有這些元素都必須在OSI批準的特許證或條款下提供。

值得註意的是，草案並未強制釋出原始訓練數據。相反，它要求「數據資訊」——有關訓練數據和方法的詳細後設資料。這包括有關數據來源、選擇標準、預處理技術和其他相關細節的資訊，這些資訊將允許熟練的人重新建立類似的系統。

「數據資訊」方法旨在在不披露實際數據集的情況下提供透明度和可復制性，表面上解決了潛在的私密或版權問題，同時堅持開源原則，盡管這一點可能會進一步辯論。

獨立AI研究員Simon Willison在接受科技媒體采訪時談到OSI的提議時表示：「[定義]最有趣的事情是他們允許不釋出訓練數據。這是一種非常務實的方法——如果他們不允許，那麽幾乎沒有能力強大的‘開源’模型。」

開源AI定義的正式化是AI領域的一個重要行程，這不僅有助於明確AI開源的邊界，也可能推動更廣泛的透明度和創新。隨著開源AI定義的最終確定，該領域有望發展更加開放、協作的開發環境，這將為全球AI開發者社區帶來深刻影響。