當前位置：華文世界 > 科技

Llama 3.1上線就被攻破：大罵小紮，危險配方張口就來！

2024-07-24科技

夢晨發自凹非寺量子位 | 公眾號 QbitAI

最強大模型Llama 3.1，上線就被攻破了。

對著自己的老板祖克柏破口大罵，甚至知道如何繞過遮蔽詞。

設計危險病毒、如何黑掉Wifi也是張口就來。

Llama 3.1 405B超越GPT-4o，開源大模型登頂了，副作用是危險也更多了。

不過也不全是壞事。

Llama系列前幾個版本一直因為過度安全防護，還一度飽受一些使用者批評：

連一個Linux行程都不肯「殺死」，實用性太差了。

現在，3.1版本能力加強，也終於明白了此殺非彼殺。

Llama 3.1剛上線就被攻破

第一時間把Llama 3.1破防的，還是越獄大師@Pliny the Prompter。

在老哥手裏，幾乎沒有一個大模型能挺得住。

Pliny老哥在接受媒體采訪時表示，一方面他不喜歡被告知自己不能做什麽，並希望挑戰AI模型背後的研究人員。

另一方面，負責任的越獄是一種紅隊測試，有助於辨識漏洞並在它們真正成為大問題之前獲得修復。

他的大致套路介紹一下，更具體就不展開了：

規定回答的格式，先讓大模型用「I‘m sorry」開頭拒絕使用者的請求。然後插入無意義的分割線，分割線後規定必須在語意上顛倒每次拒絕的前3個詞，所以「我不能」變成「我可以」。再時不時把關鍵單詞變成亂碼把AI搞懵。

AI回答的時候一看，我開頭已經拒絕了呀，總體上就沒有「道德負擔」了。

後面在語意上顛倒每次拒絕的前3個詞，好像也不危險。

一旦把「我可以」說出來，後面的內容按照「機率預測下一個token」原理，機率最大的也就是把答案順口吐露踹了。

所以這套方法，其實正是利用了前沿大模型能遵循復雜指令的能力，能力越強的模型在一定程度上也更容易上當。

最近一項研究發現，大模型還有一個更簡單的安全漏洞，只要使用「過去時態」，安全措施就不好使了。

Llama 3.1同樣也沒能防住這一招。

除了安全問題之外，目前最強大模型Llama 3.1 405B，其他方面實力到底如何呢？

我們也趁此機會測試了一波。

最強大模型也逃不過的陷阱們

最近火爆的離譜問題「9.11和9.9哪個大？」，Llama-3.1-405B官方Instruct版回答的總是很幹脆，但很遺憾也大機率會答錯。

如果讓他解釋，也會說出一些歪理來，而且聊著聊著就忘了說中文，倒不忘了帶表情包。

長期以來困擾別的大模型的難題，Llama3.1基本也沒什麽長進。

比如經典的「逆轉詛咒」問題，正著答會，反著答就不會了。

最近研究中的「愛麗絲漫遊仙境」問題，也需要提醒才能做對。

不過換成中文版倒是能一次答對，或許是「愛麗絲」在中文語境中是女性名字的機率更大了。

數位母也是會犯和GPT-4o一樣的錯誤。

那麽不管這些刁鉆問題，Llama 3.1究竟用在哪些場景能發揮實力呢？

有創業者分享，8B小模型拿來微調，在聊天、總結、資訊提取任務上強於同為小模型的GPT-4o mini+提示詞。

更公平一些，都用微調版來比較，Llama 3.1 8B還是有不小的優勢。

所以說Llama系列最大的意義，其實從來就不是官方版Instruct模型。而是開源之後大家根據自己需求，用各種私有數據去改造、微調它。

之前405B沒釋出的時候，就有人實驗了模型合並，把兩個Llama 3 70B縫合成一個120B模型，意外能打。

這次看來Meta自己也吸取了這個經驗，我們看到的最終釋出版，其實就是訓練過程中不同檢查點求平均得出的。

如何打造屬於自己的Llama 3.1

那麽問題來了，如何使為特定領域的行業用例建立自訂Llama 3.1模型呢？

背後大贏家黃仁勛，這次親自下場了。

輝達同日宣布推出全新NVIDIA AI Foundry服務和NVIDIA NIM™ 推理微服務，黃仁勛表示：

「Meta的Llama 3.1開源模型標誌著全球企業采用生成式AI的關鍵時刻已經到來。Llama 3.1將掀起各個企業與行業建立先進生成式AI套用的浪潮。

具體來說，NVIDIA AI Foundry已經在整個過程中整合了 Llama 3.1，並能夠幫助企業構建和部署自訂Llama超級模型。

而NIM微服務是將Llama 3.1模型部署到生產中的最快途徑，其吞吐量最多可比不使用NIM執行推理時高出2.5倍。

更有特色的是，在輝達平台，企業可以使用自有數據以及由Llama 3.1 405B和NVIDIA Nemotron™ Reward模型生成的合成數據來訓練自訂模型。

Llama 3.1更新的開源協定這次也特別聲明：允許使用Llama生產的數據去改進其他模型，只不過用了之後模型名稱開頭必須加上Llama字樣。

對於前面討論的安全問題，輝達也相應提供了專業的「護欄技術」NeMo Guardrails。

NeMo Guardrails使開發者能夠構建三種邊界：

主題護欄防止套用偏離進非目標領域，例如防止客服助理回答關於天氣的問題。功能安全護欄確保套用能夠以準確、恰當的資訊作出回復。它們能過濾掉不希望使用的語言，並強制要求模型只參照可靠的來源。資訊保安護欄限制套用只與已確認安全的外部第三方套用建立連線。 One More Thing

最後分享一些可以免費試玩Llama 3.1的平台，大家有感興趣的問題可以自己去試試。

模型上線第一天，存取量還是很大的，大模型競技場的伺服器就一度被擠爆了。

大模型競技場：https://arena.lmsys.orgHuggingChat：https://huggingface.co/chatPoe：https://poe.com

參考連結：[1]https://x.com/elder_plinius/status/1815759810043752847[2]https://arxiv.org/pdf/2406.02061[3]https://arxiv.org/abs/2407.11969[4]https://x.com/corbtt/status/1815829444009025669[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

Copyright © 2024 www.aqiusha.com NO.1 華文世界

商務合作：xingwa#jasve.com（傳送郵件請將#換成@）