當前位置: 華文世界 > 科技

Llama 3.1上線就被攻破:大罵小紮,危險配方張口就來!

2024-07-24科技
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI
最強大模型Llama 3.1,上線就被攻破了。
對著自己的老板祖克柏破口大罵,甚至知道如何繞過遮蔽詞。
設計危險病毒、如何黑掉Wifi也是張口就來。
Llama 3.1 405B超越GPT-4o,開源大模型登頂了,副作用是危險也更多了。
不過也不全是壞事。
Llama系列前幾個版本一直因為過度安全防護,還一度飽受一些使用者批評:
連一個Linux行程都不肯「殺死」,實用性太差了。
現在,3.1版本能力加強,也終於明白了此殺非彼殺。
Llama 3.1剛上線就被攻破
第一時間把Llama 3.1破防的,還是越獄大師@Pliny the Prompter。
在老哥手裏,幾乎沒有一個大模型能挺得住。
Pliny老哥在接受媒體采訪時表示,一方面他不喜歡被告知自己不能做什麽,並希望挑戰AI模型背後的研究人員。
另一方面,負責任的越獄是一種紅隊測試,有助於辨識漏洞並在它們真正成為大問題之前獲得修復。
他的大致套路介紹一下,更具體就不展開了:
規定回答的格式,先讓大模型用「I‘m sorry」開頭拒絕使用者的請求。然後插入無意義的分割線,分割線後規定必須在語意上顛倒每次拒絕的前3個詞,所以「我不能」變成「我可以」。再時不時把關鍵單詞變成亂碼把AI搞懵。
AI回答的時候一看,我開頭已經拒絕了呀,總體上就沒有「道德負擔」了。
後面在語意上顛倒每次拒絕的前3個詞,好像也不危險。
一旦把「我可以」說出來,後面的內容按照「機率預測下一個token」原理,機率最大的也就是把答案順口吐露踹了。
所以這套方法,其實正是利用了前沿大模型能遵循復雜指令的能力,能力越強的模型在一定程度上也更容易上當。
最近一項研究發現,大模型還有一個更簡單的安全漏洞,只要使用「過去時態」,安全措施就不好使了。
Llama 3.1同樣也沒能防住這一招。
除了安全問題之外,目前最強大模型Llama 3.1 405B,其他方面實力到底如何呢?
我們也趁此機會測試了一波。
最強大模型也逃不過的陷阱們
最近火爆的離譜問題「9.11和9.9哪個大?」,Llama-3.1-405B官方Instruct版回答的總是很幹脆,但很遺憾也大機率會答錯。
如果讓他解釋,也會說出一些歪理來,而且聊著聊著就忘了說中文,倒不忘了帶表情包。
長期以來困擾別的大模型的難題,Llama3.1基本也沒什麽長進。
比如經典的「逆轉詛咒」問題,正著答會,反著答就不會了。
最近研究中的「愛麗絲漫遊仙境」問題,也需要提醒才能做對。
不過換成中文版倒是能一次答對,或許是「愛麗絲」在中文語境中是女性名字的機率更大了。
數位母也是會犯和GPT-4o一樣的錯誤。
那麽不管這些刁鉆問題,Llama 3.1究竟用在哪些場景能發揮實力呢?
有創業者分享,8B小模型拿來微調,在聊天、總結、資訊提取任務上強於同為小模型的GPT-4o mini+提示詞。
更公平一些,都用微調版來比較,Llama 3.1 8B還是有不小的優勢。
所以說Llama系列最大的意義,其實從來就不是官方版Instruct模型。而是開源之後大家根據自己需求,用各種私有數據去改造、微調它。
之前405B沒釋出的時候,就有人實驗了模型合並,把兩個Llama 3 70B縫合成一個120B模型,意外能打。
這次看來Meta自己也吸取了這個經驗,我們看到的最終釋出版,其實就是訓練過程中不同檢查點求平均得出的。
如何打造屬於自己的Llama 3.1
那麽問題來了,如何使為特定領域的行業用例建立自訂Llama 3.1模型呢?
背後大贏家黃仁勛,這次親自下場了。
輝達同日宣布推出全新NVIDIA AI Foundry服務和NVIDIA NIM™ 推理微服務,黃仁勛表示:
「Meta的Llama 3.1開源模型標誌著全球企業采用生成式AI的關鍵時刻已經到來。Llama 3.1將掀起各個企業與行業建立先進生成式AI套用的浪潮。
具體來說,NVIDIA AI Foundry已經在整個過程中整合了 Llama 3.1,並能夠幫助企業構建和部署自訂Llama超級模型。
而NIM微服務是將Llama 3.1模型部署到生產中的最快途徑,其吞吐量最多可比不使用NIM執行推理時高出2.5倍。
更有特色的是,在輝達平台,企業可以使用自有數據以及由Llama 3.1 405B和NVIDIA Nemotron™ Reward模型生成的合成數據來訓練自訂模型。
Llama 3.1更新的開源協定這次也特別聲明:允許使用Llama生產的數據去改進其他模型,只不過用了之後模型名稱開頭必須加上Llama字樣。
對於前面討論的安全問題,輝達也相應提供了專業的「護欄技術」NeMo Guardrails。
NeMo Guardrails使開發者能夠構建三種邊界:
主題護欄防止套用偏離進非目標領域,例如防止客服助理回答關於天氣的問題。 功能安全護欄確保套用能夠以準確、恰當的資訊作出回復。它們能過濾掉不希望使用的語言,並強制要求模型只參照可靠的來源。 資訊保安護欄限制套用只與已確認安全的外部第三方套用建立連線。 One More Thing
最後分享一些可以免費試玩Llama 3.1的平台,大家有感興趣的問題可以自己去試試。
模型上線第一天,存取量還是很大的,大模型競技場的伺服器就一度被擠爆了。
大模型競技場:https://arena.lmsys.orgHuggingChat:https://huggingface.co/chatPoe:https://poe.com
參考連結:[1]https://x.com/elder_plinius/status/1815759810043752847[2]https://arxiv.org/pdf/2406.02061[3]https://arxiv.org/abs/2407.11969[4]https://x.com/corbtt/status/1815829444009025669[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models