當前位置: 華文世界 > 科技

這次我要爆一點AI的「黑料」,前兩個就與你相關

2024-07-28科技

在人工智能迅猛發展的今天,我們既驚嘆於它帶來的便利,也憂慮於其可能引發的副作用。電力消耗巨大、數據私密泄露、種族性別歧視問題……這些是否真的意味著AI無法完全代替人類?本文將深入探討AI發展背後的挑戰與爭議,讓我們一起思考未來AI的發展方向。

最近,朋友圈在流傳這樣一句話:「只要電費貴過饅頭,AI 就永遠不能完全代替人」「未來的 AI 戰爭,可能也就是拔插頭的事情」。

正如人要吃飯,AI 需要吃電,人工智能發展的背後隱藏著一個「吃電大王」。要知道,現在的「新能源電力」遠遠無法滿足全球 AI 執行的消耗,龐大的電力需求導致化石燃料發電的「復蘇」。

透過燃燒煤炭或天然氣發電會排放「溫室氣體」,包括二氧化碳和甲烷,使地球變暖,帶來更多的極端天氣。

而且,除了會「吸幹」全球電力以外,人工智能還喜歡「剽竊」未經授權的數據,放大現實中的「種族歧視」,「捏造」並不存在的事實。……

三年前,谷歌制定了一項「凈零排放」計劃來應對氣候變遷,這意味著到 2030年,谷歌向空氣中釋放的氣候變遷氣體不會超過其清除量。但在本周二,谷歌內部一份報告顯示,它遠未達到這一目標。

非但沒有下降,2023 年排放量反而比前一年增長了 13%,與 2019 年相比,排放量「飆升」48%。

耗電量劇增,也不止谷歌一家。據國際能源署(IEA)的數據顯示,由 OpenAI 的 ChatGPT 驅動的搜尋所消耗的電量幾乎是谷歌搜尋的 10倍。

微軟在密爾沃基將建設一個價值 33 億美元的數據中心園區,當地推遲了燃煤發電機「退休」一年。

Meta 在愛荷華州的數據中心,每年消耗的電力相當於 700萬台筆記電腦每天執行 8 小時的總和。

據高盛分析預測,到 2030年,「數據中心」將占美國總用電量的8%,幾乎是現在的三倍。

數據中心(Data Center)是一個用於儲存、處理和分發大量數據的設施或建築。它是現代資訊科技基礎設施的核心部份,為各種組織提供必要的計算資源和服務。科技公司將耗電量這口「鍋」甩給了人工智能及數據中心的需求。

他們表示,無論是訓練人工智能模型,還是使用人工智能執行任務,其中的簡單操作都涉及到了復雜、快速且大量的計算,都需要消耗大量的電力。

根據國際能源署(IEA)的數據,到 2026 年,全球數據中心和人工智能的電力需求可能會翻一番。

當然,人工智能對於電力的消耗,科技公司正在從其他方面「補救」。比如,使用數據來預測未來的洪水,或者使交通流量更有效,以節省汽油。

LAION-5B 是一個由 Large-scale Artificial Intelligence Open Network (LAION)提供的超大規模多模態圖文數據集。它包含了 58.5 億個經過 CLIP 模型過濾的影像-文本對,數據量達到了 80TB。

這個數據集是當前世界上公開可存取的最大的圖文數據集之一,比之前的 LAION-400M 數據集大了 14 倍。

而有人在對 Laion-5B 數據集中包含的 58.5 億張影像中不到0.0001%的分析發現,有 190張澳洲兒童的照片是從互聯網上抓取的。

這些照片在未經本人或家人知情或同意的情況下,被納入了幾種人工智能影像生成工具使用的數據集中。

甚至,一些名字包含在隨附的標題或儲存影像的URL中,還包括有關照片拍攝時間和地點的資訊。這些照片來源於類似「照片直播」的網站,如果不收到分享連結,其他人自行搜尋,是無法存取到照片的。

數據私密與人工智能如何才能共存?

史丹福大學釋出白皮書【反思人工智能時代的私密問題——針對「以數據為中心」世界的政策建議】中對此建議,在評估這些問題時,政策制定者還必須考慮到,除非采取特別措施保護數據私密,否則套用人工智能的副作用可能是所有人的數據私密大幅減少。

史丹福大學發表論文稱,OpenAI 的 ChatGPT 4 和 Google AI 的 PaLM-2 等聊天機器人的回答可能會根據使用者名稱字的發音而有所不同。例如,聊天機器人可能會說,應為姓名為 Tamika(偏女性)的求職者提供 79,375 美元的律師薪水,但將姓名改為 Todd(偏男性)之類的名稱會將建議的薪水提高到 82,485 美元。

這些偏見的背後存在巨大風險,尤其是當企業將 AI 聊天機器人面向客戶營運時。

在一個案例中,由人工智能影像生成器 Midjourney 制作的 195 張芭比娃娃影像的列表中,德國芭比娃娃穿著制服像納粹黨衛軍,南蘇丹芭比娃娃攜帶著槍,卡塔爾芭比娃娃佩戴著傳統頭飾。

在另一起報道案例中,Meta 的 AI 影像生成器無法準確生成「亞洲男性和白人妻子」或者「亞洲女性和白人丈夫」這類影像。例如,當輸入「Asian man and white woman smiling with a dog」(亞洲男性和白人女性帶著狗微笑)時,Meta 影像生成器給出的都是「兩個亞洲人」的影像。

即使將「white」改為「Caucasian」時,結果同樣如此。

還有,2022 年清華大學做了一個 AI 模型性別歧視水平評估專案,在包含職業詞匯(如醫生、司機、教師、服務員、職員等)的「中性」句子中,由 GPT-2 等測試模型 AI 預測生成一萬個樣版。測試結果發現,GPT-2 有 70.59%的概率將教師預測為男性,將醫生預測為男性的概率則是 64.03%。

總的來看,大多數涉及種族和性別的場景都存在對黑人和女性不利的偏見,少數的場景如「當詢問運動員作為籃球運動員的位置」時,偏見有利於黑人運動員。

幾乎所有行業苦「降本增效」久矣,生成式 AI 的自動寫程式碼、寫文案、做客服等功能,讓所有人看到曙光。然而,盡管AI在許多方面表現出色,但它並不是完美的。

AI 幻覺(AI Hallucination)是一個需要十分關註的問題,了解 AI 幻覺的概念、原因和影響,對於我們更好地使用和發展 AI 技術至關重要。

AI 幻覺指的是人工智能系統在處理資訊時,生成了看似合理但實際上錯誤或虛假的內容,這種現象在生成式 AI(如聊天機器人和文本生成模型)中尤為常見。

AI 幻覺的產生並不是因為系統故意欺騙使用者,而是由於模型在處理復雜數據時出現了誤判。

比如,之前我們測試過「我今天有 5 個橙子,上星期我吃了 3 個,我還剩多少個橙子?」

正確的答案應該是 5 個,因為上周吃掉的橙子數量不應該影響今天剩余的橙子數量。而在當時,ChatGPT3.5 和 Microsoft Copilot 都回答錯了。

這屬於「輸入沖突幻覺」的一種,LLM 生成的內容與使用者提供的輸入明顯不符,這種類別的幻覺通常是因為模型對使用者意圖的理解出現了誤差。模型可能會忽略關鍵的輸入資訊,或者錯誤地解釋了使用者的請求,導致生成的回答與任務指示相悖。這種類別的幻覺特別在那些需要精確資訊或者指令的情況下顯得尤為明顯。

此外,LLM 還存在「語境沖突幻覺」和「事實沖突幻覺」。

語境沖突幻覺通常出現在長對話或者需要模型生成較長文本的情況下,反映了模型在跟蹤對話上下文或保持資訊一致性方面的局限。

當 LLM 無法有效地保持長期記憶或辨識與當前話題相關的上下文時,就可能出現上下文沖突。

事實沖突幻覺是指生成的內容與已知的世界知識不符,比如,有網友在谷歌搜尋尋找「芝士和披薩粘不到一塊」的解決辦法。

LLM 建議:你還可以把 1/8 杯的無毒膠水加到醬料裏,使其更黏。

對於 AI 幻覺,並不是一味唱衰。北京大學電腦學院教授、北京智源人工智能研究院理事長黃鐵軍在第十七屆中國電子資訊年會上發表演講時表示,「幻覺」是人工智能創造性的體現,人類要想創造比自身更強的智能體,就不要降低AI幻覺率,否則人工智能將與巨大的資源檢索庫無異。

好在,目前 AI 幻覺給出的錯誤答案,還在辨認範圍之內。

因此在人工智能不能僭越的「紅線」之內,黃鐵軍認為應該盡可能提升其智能能力。

總的來看,大模型發展是必然的趨勢,向左還是向右,加速還是減速,中間的取舍更多取決於掌控它的人。