這款名為 SynthID 的工具,是生成式 AI 輸出浮水印工具家族的一部份。去年,公司推出了用於影像的浮水印,隨後又推出了用於 AI 生成視訊的浮水印。今年 5 月,Google 宣布在其 Gemini 套用和線上聊天機器人中使用 SynthID,並在 Hugging Face 這一開放的 AI 數據集和模型庫中免費提供。浮水印已成為幫助人們辨識 AI 生成內容的重要工具,這有助於防範如虛假資訊等潛在危害。
「現在,其他生成式 AI 開發者可以使用這一技術,幫助他們檢測文本輸出是否來自自己的大語言模型,這將使更多開發者能夠更負責任地構建 AI。」Google DeepMind 研究副總裁 Pushmeet Kohli 說。
SynthID 透過在 AI 模型生成文本時,直接在文本中加入一個不可見的浮水印。
大型語言模型透過將語言分解為「token」,然後預測哪個 token 最有可能接在前一個 token 之後來運作。一個 token 可以是單個字元、單詞或短語的一部份,每個 token 都會得到一個百分比分數,表示其成為句子中下一個詞的可能性。百分比越高,模型使用該 token 的可能性就越大。
「SynthID 透過在生成的那一刻引入額外的資訊來改變 token 生成的機率。」Kohli 解釋道。
要檢測浮水印並確定文本是否由 AI 工具生成,SynthID 透過比較帶浮水印和不帶浮水印文本中單詞的預期機率分數來實作。
Google DeepMind 發現,使用 SynthID 浮水印並未影響生成文本的品質、準確性、創造力或生成速度。這一結論來自 SynthID 在 Gemini 產品中的大規模實地測試,數百萬人使用了帶有浮水印的文本。Gemini 允許使用者對 AI 模型的回復進行評分,選擇「贊」或「踩」。
Kohli 和他的團隊分析了約 2000 萬條帶浮水印和不帶浮水印的聊天機器人回復的評分。他們發現,使用者並未察覺兩者在品質和實用性上有何差別。此次實驗的結果詳見今天發表在 Nature 上的論文。目前,SynthID 僅適用於 Google 的模型生成的內容,但開源這一工具的目的是希望擴大其相容工具的範圍。
然而,SynthID 也存在一些局限性。浮水印在應對文本裁剪、輕度編輯或重寫時具有一定的抗幹擾能力,但當 AI 生成的文本被重寫或轉譯成另一種語言時,效果不如預期。在回答諸如「法國的首都是哪裏」這種事實性問題時,浮水印的可靠性也較低。原因在於,在不改變事實的前提下,調整句子中下一個可能單詞的機率空間更為有限。
「在生成式 AI 文本中實作可靠且不可察覺的浮水印是極具挑戰性的,尤其是在輸出結果接近確定性的場景中,例如事實性問題或程式碼生成任務。」馬里蘭大學副教授 Soheil Feizi 說,他曾研究過 AI 浮水印的脆弱性。
Feizi 表示,Google DeepMind 決定開源其浮水印方法,是對 AI 社群的一個積極訊號。「這讓社群可以測試這些檢測器,並在不同的環境中評估其魯棒性,從而更好地理解這些技術的局限性。」他補充道。
Hugging Face 的機器學習工程師 João Gante 指出,開源工具還有另一個好處,開源意味著任何人都可以使用程式碼,並無附加限制地將浮水印整合到他們的模型中。這將提升浮水印的私密性,因為只有擁有者知道其加密秘密。
「隨著可存取性的提升和功能的驗證,我希望浮水印技術能成為標準,這有助於我們檢測語言模型的惡意使用。」Gante 說道。
但浮水印並非萬能的解決方案,Hugging Face 全球政策負責人 Irene Solaiman 指出。
「浮水印是保障模型安全的一部份,但整個生態系還需要許多互補的安全措施。類似地,即便是人工生成的內容,事實核查的效果也因情境而異。」她表示。
原文連結: