無視安全的公司，離掉隊不遠了

2024-07-25科技

題圖｜視覺中國

在資訊時代，鋼鐵並不是各公共基礎設施的通用組建，單晶矽才是。從交通到金融，幾乎所有的基礎設施都陳列在私有雲、公有雲網絡上，由全世界最大的幾家雲營運商負責維護。

除了這些雲營運商自己的安全團隊，世界上又存在一批大型網絡安全公司，專為雲上基礎設施提供安全方案和保障。

但這些都沒有阻止上周席卷全球的藍屏事件發生——始作俑者恰恰是網絡安全公司CrowdStrike，一個總資產超過 66 億美元，員工接近8000人的巨頭，以善於解決最棘手的安全事件而聞名。

這個我們正在遷徙去到的數碼世界，其實比想象的更加脆弱，一次失敗的更新推播，就導致全球航班大面積停飛，許多航空公司取消當天所有航班；許多醫院的非緊急手術也被迫取消，甚至美國多個州的911報警路線也一度陷入癱瘓。

如果考慮到可控性更低的生成式 AI 正大舉進入數碼世界的生產環節，未來的網絡安全形式還將變得更加復雜。

技術解決不了人的問題

人們常把網絡安全問題單純地歸結為技術問題，認為「道高一尺，魔高一丈」，但在雲基礎設施的安全層面，近年來的重大事故多半與技術無關。

以CrowdStrike 引發的重大事故為例，若更新經過測試，問題很容易被發現；若更新是灰度上線的，同樣不會造成如此惡劣的後果。

那麽是 CrowdStrike 的DevOps 平台不夠完善嗎？

顯然不是。事實上，CrowdStrike 在官方網站長期更新著大量DevOps 技術內容，說其是DevOps 布道者也不為過。

可能的答案只剩下一個：負責本次更新的團隊繞過了測試環節，擅自進行了釋出。而相關團隊對灰度的重要性認知不足，默許了該項更新未經測試，直接進行全網釋出。這是目前各家媒體共識度較高的答案，CrowdStrike 自身也並未否定這種推測。

再強大的運維平台，也彌補不了團隊自身安全意識的缺失，偏偏CrowdStrike 也並不是第一次犯下此類錯誤。據紐約時報披露，CrowdStrike 在今年4月，向Linux系統的客戶推播過一次更新，導致電腦崩潰。CrowdStrike 隨後承諾改進其測試流程。沒成想僅僅三個月後，更大的事故就釀成了。

顯然流程並不是絕對的，團隊的安全意識和文化問題，沒那麽容易改進。細數過去雲安全領域的重大事故會發現，類似的情況比比皆是：犯錯誤的企業，幾乎是在以相當的頻度，不斷重復自己的錯誤。

遍數行業各家巨頭，亞馬遜雲科技幾乎是唯一一家，把安全文化擺在台面上來談的公司。

在re:Inforce 2024 美國的開場 Keynote 上，亞馬遜雲科技CISO（首席資訊保安官）就聊了亞馬遜雲科技的安全文化，可見對其的重視。

據透露，亞馬遜雲科技的安全團隊直接向 CEO 匯報，這種組織架構已經持續了八年。此外，每周五，CEO、CISO以及各服務團隊有一個固定例會，討論各服務的安全話題。亞馬遜雲科技是一個巨型企業，對於參會的許多人來說，這幾乎是全年唯一的與CEO直接討論產品、業務的機會。

這種越級討論，不僅停留在例會上，也發生在故障處理上。亞馬遜雲科技規定，各服務團隊 leader 對其服務的安全性負直接責任，但在故障發生時，故障發現人有權升級處理。在典型的巨頭企業內，升級處理不僅意味著問題嚴重性被直線升級，也意味著某種習以為常的「公司內部政治」被打破了。而在亞馬遜雲科技，這種升級處理是不設級別上限的。

此外，在安全問題上，亞馬遜雲科技極為強調亞馬遜領導力原則16條中的「主人翁精神（Ownership）」，不允許各部門在工單上踢皮球。

所以從客觀上看，安全事故牽扯到的一系列「大公司病」，確實很少出現在亞馬遜雲科技身上。

亞馬遜雲科技試圖用這種方式，在內部塑造一種安全文化——他們信奉長期主義，認為安全意識需要不斷加強，長期建設。

沒人指望一個良性的文化，就能杜絕所有安全問題，但這是一個良好的基礎，甚至也是當下必須被倡導的。因為隨著生成式 AI 進入生產環節，安全形式只會越來越嚴峻。

安全問題，已成為整個AI圈兒的「Job Zero」

一個最顯著的問題是，大模型把純粹的程式邏輯變成了某種黑盒，這是一個自機器學習技術遺留下來的老問題，叫做AI的可解釋性——即便是模型的構建和訓練者，也無法完全確認，AI 的每一次結果輸出是如何一步步產生的。

這導致黑客很容易圍繞大模型展開攻擊，透過對模型輸入進行幹擾，影響輸出。同時，大模型作為新興產物，相關外掛程式的安全性還不夠完善，也很容易被黑客突破。

開放Web應用程式安全專案編制的LLM應用程式十大漏洞關鍵列表對此有過詳細的介紹，比如：

及時註射：以直接、間接的方式，透過巧妙的輸入，導致LLM執行意外操作；不安全的輸出處理：當LLM 的輸出未經過足夠的安全審查時，就會出現漏洞，暴露後端系統，可能會導致 XXS、CSRF、許可權升級或遠端程式碼執行等嚴重後果；訓練數據中毒：篡改LLM訓練數據，引入損害安全性的數據；拒絕服務模型：攻擊者對LLM進行資源密集型操作，導致服務降級，或極大提高營運商服務成本，有點類似DDos攻擊；……

如果說，過去的雲安全問題更像地雷，好像只要不踩中，就可以得過且過。那麽今天的安全問題，一旦被利用，都會導致極大的安全風險，根本無法被忽視。在網絡安全領域，生成式 AI 制造問題的速度，幾乎和解決問題的速度相當。

虎嗅過往曾有文章闡述，UIUC的實驗研究表明，使用自主 LLM 代理攻擊網站的總成本約為 9.81 美元，總體成功率為 42.7%，而人工成本據估計可能高達 80 美元。LLM極大地降低了黑客的行動成本，進而導致有LLM加持的網絡攻擊，頻頻出現。

近兩年的一連串人事變動，也能佐證生成式 AI 正在引發越來越廣泛的安全風險：2023年76歲的圖靈獎得主Geoffrey Hinton從谷歌離職，專註於人工智能風險預警；今年6月，OpenAI 聯合創始人Ilya離職創業，他對媒體表示，這是一家將優先考慮安全性而非「商業壓力」的公司。

事實上，套用生成式 AI 技術最為積極的巨頭，都已經註意到其潛在的安全問題，這是為什麽亞馬遜雲科技今年的 re:Inforce 2024 如此引人關註——作為業界唯一的由雲廠商主辦的安全大會，它們足夠代表當下行業安全問題的領先認知。

亞馬遜雲科技提倡將安全維度的考量，融入產品設計之初。舉個例子，亞馬遜雲科技旗下Graviton4芯片全面加密了高速物理硬件介面，包括DRAM、連線Nitro卡的PCle，以及雙槽位例項中連線第二個Graviton插槽的芯片間鏈路。此外，Graviton4同樣具備指標身份進行驗證，以及對跳轉目標進行辨識等能力。過往許多針對芯片的攻擊，都是圍繞這些能力展開的，M1 芯片就曾在此吃過大虧。

但基礎設施營運商一定要認識到，在安全層面的投入，不僅僅要提升防護能力，也要提升在安全環境下的效能表現。效能和安全，不是要廠商在期間做取舍，而是在保證安全的前提下，「既要又要」。

典型案例是 Amazon Nitro Enclave ，過往只能在 CPU 中執行，因此可以支持的任務類別有限。很快，亞馬遜雲科技將官宣對其進行拓展，將其與 ML 加速器和 GPU 無縫整合，以解決相容性和效能問題。

今天的許多大模型都采用私有化部署的模式，原因是業內廠商對安全的認知並不統一，未能將AI數據與設施營運商徹底隔離。誠如亞馬遜雲科技 CISO Chris Betz在re:Inforce 2024 美國所說，客戶需要一個對安全性有深入投資的合作夥伴，進入一段長期的合作關系。

在接下來的一年內，如果不將安全意識提升到一定高度，相關企業幾乎不會有生存下去的可能——再華麗的技術，也抵不過客戶因各類雲安全事故，不斷降低的信任值。

探索：將部份權利讓渡給 AI

看看行業正在發生的變化就知道了。

就在7月23日，一家初創公司拒絕了谷歌價值 230 億美元的收購計劃，準備實作 10 億美元的 ARR 並沖擊 IPO。

這家公司叫 Wiz，4位元聯合創始人全部曾在以色列情報部隊「8200」服役，也都曾供職過微軟雲安全部門。據矽兔君報道，他們註意到了一個巨大的市場空白：隨著AI時代的到來，現有的安全解決方案多針對本地網絡打造，已經無法滿足日益增長的雲安全需求，安全團隊迫切需要一個統一的工具，來管理和監督所有雲伺服器。

因此他們從微軟離職創業，3年融資近20億美元，成為如今熾手可熱的安全新銳企業。

說到底，Wiz 的成功表明，今天的雲安全仍然過度復雜，且正變得越來越復雜。他們僅僅是構建跨多雲的統一管理平台，就快速實作了 1 億美元的年度經常性收入。

那麽，日後如何推進跨多個基礎大模型的安全工作？如何對使用過多種智能輔助工具的程式碼，進行審查？

這都是亟待解決的問題。

嘗試著將一部份繁雜工作，逐漸讓渡給 AI ，是目前正在推進的一個工作方向。亞馬遜雲科技透露，他們正在推進利用生成式 AI 提升安全性，比如用 Amazon Q for Developer 生成安全程式碼；用Amazon Inspector 分析程式碼漏洞並編寫程式碼來替換易受攻擊的行；用 Amazon Detective 分析承諾指標，並用清晰的語言描述研究結果。

另外，在企業構建了良好的安全文化和相應的組織架構後，用「鐵面無情」的AI做最後的安全審查者，從而避免員工私自繞過測試和部署流程，或許也是一個可行方案。

總之，人們必須認識到，我們正在經歷一場從物理世界到數碼世界的遷徙，而後者的安全工作還遠未做到盡善盡美，這或許是當下唯一的「Job Zero」。