頂級圍棋AI被發現漏洞：「超人類人工智能」還有很長的路？

2024-07-11科技

圍棋機器人通常被視為人工智能（AI）領域最成功的系統之一。然而，近期一項研究揭示了頂級圍棋機器人存在的缺陷。研究人員認為圍棋機器人的致命缺陷同樣存在於ChatGPT（聊天機器人）在內的大型語言模型中，這引發了人們對通用人工智能是否會遭受漏洞影響從而危及其安全性和可靠性的質疑。

2022年11月19日，雲南昆明，南亞博覽會，參展商在和弈棋機器人下圍棋。（新華社/圖）

編譯丨李永博

「超人類人工智能」（superhuman AI）是最近人工智能領域比較熱門的話題。根據OpenAI首席科學家伊爾亞·蘇茨克維（Ilya Sutskever）的說法，「超人類人工智能」指的是那些在某些領域上能夠表現得比人類更優秀的AI系統。然而最近的一項研究對「超人類人工智能」的前景提出了質疑。

根據【自然】雜誌報道，近期釋出的一項研究以KataGo2（被認為是目前最成功的開源圍棋人工智能系統）為例，指出人工智能系統並非總是可以在圍棋領域輕易地擊敗人類。

這項研究作為預印本於今年6月線上釋出，還未經過同行評審。研究人員使用了「對抗性攻擊」來發現圍棋AI系統的漏洞，這是一種向AI系統輸入設計好的數據，誘使系統犯錯的策略。例如，某些提示可以讓聊天機器人「越獄」，使其提供出它們被訓練禁止表達的有害資訊。

科幻紀錄片【我們需要談談AI】（AI We Need To Talk About A.I.，2020）畫面。

在圍棋中，研究人員透過訓練對抗性AI機器人擊敗KataGo，這是目前最好的開源圍棋AI系統。研究人員表示，這些對抗性機器人找到了能夠經常擊敗KataGo的漏洞，盡管它們在其他方面表現並不好。此外，人類可以理解這些機器人的技巧並采用它們來擊敗KataGo。

KataGo的漏洞是一次偶然現象，還是指向了所有「超人類人工智能」的根本弱點？為了調查這一點，研究人員使用對抗性機器人測試了圍棋AI三種應對防禦策略。結果顯示，面對三種不同的防禦策略，對抗性機器人最終還是找到了圍棋AI的弱點，勝率可以達到80%-90%。

在所有這些情況下，對抗性機器人雖然能夠擊敗KataGo和其他頂級圍棋系統，但它們被訓練的目的是發現其他AI的隱藏漏洞，而不是成為全面的戰略家。「這些對手仍然相當弱，人類自己也能輕松擊敗它們，」研究人員說道。

這項研究結果不僅局限於圍棋AI，也可能對包括ChatGPT在內的大型語言模型的AI系統產生廣泛影響。「關鍵的結論是漏洞難以消除，如果我們不能在像圍棋這樣簡單的領域中解決這個問題，那麽在短期內，似乎不太可能修復類似於ChatGPT中的越獄問題。」

多位專家指出，這篇論文提供了迄今為止最有力的證據，表明讓高級AI模型穩定地表現出預期行為是很難的，這說明想要構建一個可以信任的、強大的現實世界的AI系統還有很長的路，「最重要的結論是我們今天構建的AI系統，人類自己並不完全理解。」

參考資料：

(1)Can AI be superhuman? Flaws in top gaming bot cast doubt

https://www.nature.com/articles/d41586-024-02218-7

(2)OpenAI Co-Founder, Who Helped Oust Sam Altman, Starts His Own Company

https://www.nytimes.com/2024/06/19/technology/ilya-sutskever-openai-safe-superintelligence.html

本文為編譯內容。編譯：李永博；編輯：西西；校對：柳寶慶。歡迎轉發至朋友圈。文末含【新京報·書評周刊】2023合訂本廣告。