當前位置: 華文世界 > 科技

開源AI定義之爭引發激烈辯論,正式定義呼之欲出

2024-08-31科技
隨著人工智能技術飛速發展,關於「開源AI」這一術語的爭議愈發激烈。開源倡議組織(OSI)最近公布了其「開源AI」的最新草案定義,旨在澄清這一術語在迅速變化的領域中的模糊使用。這一舉動發生在一些公司如Meta在釋出訓練有素的AI語言模型權重和程式碼時,使用「開源」標簽卻帶來了限制,引發了自由軟件倡導者之間關於AI背景下「開源」真正含義的激烈辯論。
Meta的Llama 3模型雖然可以自由獲取,但由於公司規模或使用模型產生的內容類別而施加了使用特許限制,因此不符合OSI為軟件定義的傳統開源標準。AI影像生成器Flux是另一個標榜「開放」但並非真正開源的模型。由於這種模糊性,我們通常用「開放權重」或「源可用」等替代術語來描述包含程式碼或權重限制或缺少配套訓練數據的AI模型。
為了正式解決這個問題,以倡導開源軟件標準而聞名的OSI召集了一個約70名參與者的小組,包括研究人員、律師、政策制定者和活動家,來自Meta、Google和Amazon等大型科技公司的代表也加入了這一團隊。該小組當前的草案(版本0.0.9)定義強調了與定義自由軟件相似的「四大基本原則」:允許AI系統的使用者在未經特許的情況下使用它用於任何目的,研究其工作原理,為任何目的修改它,以及分享修改或不修改的版本。
透過為開源AI建立清晰的標準,該組織希望提供一個基準,用於評估AI系統。這可能會幫助開發者、研究人員和使用者對他們建立、研究或使用的AI工具做出更明智的決策。
真正開源的AI也可能揭示AI系統的潛在軟件漏洞,因為研究人員將能夠看到AI模型背後的工作原理。與此方法相比,像OpenAI的ChatGPT這樣的不透明系統,不僅僅是一個帶有花哨界面的GPT-4o大型語言模型——它是一個專有的模型和過濾器的互鎖系統,其確切架構是一個嚴密守護的秘密。
OSI的專案時間表顯示,預計在2024年10月在北卡羅來納州羅利舉行的All Things Open 2024活動上宣布「開源AI」定義的穩定版本。
「無需特許的創新」
在5月的新聞釋出會上,OSI強調了定義開源AI真正含義的重要性。OSI的執行董事Stefano Maffulli說:「AI與常規軟件不同,迫使所有利益相關者重新審視開源原則如何適用於這個領域。OSI相信每個人都應該保持對技術的代理和控制權。我們還認識到,當清晰的定義促進透明度、協作和無需特許的創新時,市場就會繁榮。」
該組織的最新草案定義不僅涵蓋了AI模型或其權重,還包括了整個系統及其元件。
要使AI系統符合開源資格,它必須提供OSI所謂的「首選修改形式」的存取許可權。這包括有關訓練數據的詳細資訊,用於訓練和執行系統的完整原始碼,以及模型權重和參數。所有這些元素都必須在OSI批準的特許證或條款下提供。
值得註意的是,草案並未強制釋出原始訓練數據。相反,它要求「數據資訊」——有關訓練數據和方法的詳細後設資料。這包括有關數據來源、選擇標準、預處理技術和其他相關細節的資訊,這些資訊將允許熟練的人重新建立類似的系統。
「數據資訊」方法旨在在不披露實際數據集的情況下提供透明度和可復制性,表面上解決了潛在的私密或版權問題,同時堅持開源原則,盡管這一點可能會進一步辯論。
獨立AI研究員Simon Willison在接受科技媒體采訪時談到OSI的提議時表示:「[定義]最有趣的事情是他們允許不釋出訓練數據。這是一種非常務實的方法——如果他們不允許,那麽幾乎沒有能力強大的‘開源’模型。」
開源AI定義的正式化是AI領域的一個重要行程,這不僅有助於明確AI開源的邊界,也可能推動更廣泛的透明度和創新。隨著開源AI定義的最終確定,該領域有望發展更加開放、協作的開發環境,這將為全球AI開發者社區帶來深刻影響。