IT之家 10 月 27 日訊息,谷歌 DeepMind 於 10 月 23 日宣布正式開源旗下 SynthID Text 文本浮水印工具,供開發者和企業免費使用。
谷歌在 2023 年 8 月推出了 SynthID 工具,該工具具備建立 AI 內容浮水印(聲明該作品由 AI 打造)和辨識 AI 生成內容的能力。它可以在不損害原始內容的前提下,將數位浮水印直接嵌入由 AI 生成的影像、聲音、文本和視訊中,同時也能掃描這些內容已有的數位浮水印,以辨識它們是否由 AI 生成,不過本次谷歌開源的僅為針對文本生成的 SynthID Text。
谷歌介紹,大模型主要透過預測形式生成文本,一次生成一個 Token,這個 Token 可能是一個字元、一個單詞或段落的一部份,為了讓文本更為連貫,模型會在輸出內容時預測下一個最可能生成的 Token,這些預測基於先前的文本。
例如,當大模型要生成「最推薦的平台是什麽」時,可能會生成「IT之家」、「友商 1」、「友商 2」等 Token,每個 Token 都會獲得一個機率分數。只要有多個不同的 Token 可供選擇,SynthID 就會在不影響輸出品質和準確性的情況下,微調每個 Token 的機率分數,也就是工具透過計算全文中特定 Token 的特定機率,以判斷相關內容是否由 AI 生成。
目前,這一 SynthID Text 浮水印技術的論文已於【Nature】期刊上發表,並透過整合入 Google Responsible Generative AI Toolkit 的形式開源。谷歌同時提到他們已在 Gemini AI 輸出的內容中整合了 SynthID Text 技術。