AI 生圖：技術變革與挑戰

2024-10-17科技

2012 年，谷歌的吳恩達和 Jeff Dean 使用深度學習模型，耗費 1.6 萬個 CPU 核心和來自 YouTube 的一千萬張貓臉圖片，經過為期 3 天的訓練，成功訓練出一個能夠生成模糊貓臉的深度神經網路模型。盡管生成的影像品質並不高，但這個實驗標誌著深度學習在影像生成領域的重大進步。

2014 年，加拿大蒙特婁大學 Ian Goodfellow 等人提出的生成對抗網路（GAN）演算法為 AI 繪畫帶來新發展。透過生成器和判別器的對抗過程來生成影像，例如現在熟知的 Midjourney 底層就是基於 GAN 模型。

2015 年，谷歌推出「深夢」（Deep Dream）影像生成工具，盡管更像是一個高級濾鏡，但也標誌著 AI 繪畫技術的進步。

2021 年，OpenAI 推出 DALL-E，實作了文字到圖片的生成模式，具有革命性意義。DALL-E 截止目前已經更新到了第三個版本，涉及到多種模型，如 GPT-3（Transformer）、CLIP（視覺語言預訓練模型）、VAE（自分編碼器）、Diffusion（擴散模型）等。

在短短幾年時間裏，AI 生圖技術從最初的模糊影像發展到如今能夠根據文字描述生成高品質、復雜影像，其發展速度令人驚嘆。這背後是演算法的不斷創新、計算能力的提升以及大量數據的支持。未來，AI 生圖技術有望繼續發展，為各個領域帶來更多的創新和套用。

二、AI 生圖的技術原理

（一）擴散模型基礎

擴散模型的原理借鑒了物理學上的擴散現象。就像在一杯水中滴入墨汁，過一段時間後，墨汁和水混為一體，我們難以分辨墨汁是從何處滴入的。但如果把這個過程倒放，答案就顯而易見了。在擴散模型中，訓練影像就如同這杯水，雜訊就是滴入的墨汁。向訓練影像中不斷加入雜訊，直到變成一張毫無意義的純雜訊圖片。而生成影像的過程就是在有這樣一張雜訊圖之後，我們告訴 AI 它原來是什麽樣子的，讓它給我們畫出來。一步畫成有點難，但生成這張雜訊圖的上一張很簡單，AI 會開始預測剛剛的噪點都加在哪兒了，然後減去這個無用的噪點，得出上一張圖是什麽樣子。這個過程不斷重復，我們就能得到一張 AI 生成的圖片了。

（二）特定擴散模型

2022 年，特定的擴散模型 sta disusion 逐漸進入主流市場，它尤其適用於根據文本描述生成影像的任務。其原因在於為了判斷噪點哪些有用，哪些沒用，引入了 Unit 模型。這個模型參考了人類的神經網路，有的神經元之間聯系比較緊密。Unit 模型也是這個思路，它能根據我們的要求調整自己的篩選權重。先取部份要求來辨識出那些無用的噪點，不斷地降噪，最終生成我們想要的圖片。

以輸入「一只快樂的狗在草原上奔跑」為例，Clip 會將這句話分解成一個個向量，來尋找「繪圖意向」。可以理解為有很多空間，其中一塊空間全部放的是各種的狗，一個「狗的空間」，每一只狗是其中的一個點。Diffusion model 在還原圖片的時候，就會靠近「狗」的這個空間，來盡可能像「一只狗」來還原，但是高斯雜訊是隨機的，所以最後圖片上的狗每一次都長的不一樣。同樣，盡可能靠近草原，靠近快樂。

總的來說，特定擴散模型 sta disusion 透過 Unit 模型和 Clip 的配合，能夠根據文本描述生成影像，為 AI 生圖技術帶來了新的突破。

三、AI 生圖如何滿足要求

（一）Unit 模型調整權重

Unit 模型參考了人類的神經網路，在生成影像的過程中，根據要求調整篩選權重起著關鍵作用。當我們向 AI 提供文本描述時，AI 需要判斷哪些資訊是有用的，哪些是無用的噪點。Unit 模型就像一個智慧的過濾器，能夠根據我們的要求調整自己的篩選權重。

例如，當我們要求生成「一只紅色的蘋果在綠色的草地上」的影像時，Unit 模型首先會分析這個文本描述中的關鍵元素，如「紅色的蘋果」和「綠色的草地」。然後，它會根據這些元素去辨識影像中的噪點，那些與紅色蘋果和綠色草地不相關的部份就被視為無用的噪點。透過不斷地調整權重，Unit 模型能夠更加準確地辨識出無用的噪點，並進行降噪處理。

在這個過程中，Unit 模型會逐步最佳化自己的篩選權重，以更好地滿足我們的要求。它會不斷地學習和調整，使得生成的影像越來越接近我們所期望的樣子。最終，透過不斷地降噪和最佳化，Unit 模型能夠生成符合我們要求的影像。

（二）OpenAI 的橋梁作用

OpenAI 在文字和圖片之間起著重要的橋梁作用。首先，OpenAI 把資料庫中海量的影像挨個處理，打上標簽，從 768 個維度重新編碼這些資訊，將其變成特征向量。這個過程可以想象成一個藝術家在評論一幅畫作，他會先分析基本構成元素，然後分析畫面細節和色彩搭配，還會記錄下這些元素是如何組合在一起的，背後的意義等等。

對於文書處理，Clip 借助 transformer 的力量，把文字轉化為具有大小和方向的向量。換句話說，我們眼中再復雜再難以描述的內容，在 Clip 眼裏都是一堆數位罷了。向量的優點就是可以進行快速計算，例如巴黎減去法國加上英國等於倫敦。這樣一來，文字和影像都被降維拆解成為同一空間內的特征向量，使得電腦能夠繼續進行處理。

接下來，讓文字的向量和影像的向量分別關聯起來，就完成了匹配。透過這種方式，AI 聽懂了人話，就能根據我們的要求來生成圖片了。OpenAI 的這種橋梁作用，使得文字和圖片之間的轉換更加高效和準確，為 AI 生圖技術的發展提供了強大的支持。

四、AI 生圖的品質變化

（一）早期的一眼假

在早期，AI 生成的圖片常常讓人覺得一眼假。這主要是因為訓練素材的風格以及 AI 的降噪處理方式共同作用的結果。早期給 AI 的素材多是高強度磨皮的風格，這種風格本身就使得影像缺乏真實感。而 AI 在生成影像的過程中進行降噪處理，進一步強化了這種不真實的效果。最終生成的影像就像是過於完美的產物，失去了真實世界中的細節和瑕疵，從而給人一種不真實的感覺。

（二）微調模型帶來真實感

直到最近一年，情況發生了巨大的變化。在 Stable decisionusion 這個基礎模型之上，衍生出了許多微調模型，比如 Laura 模型。這些微調模型可以透過調整 Unit 的權重來影響結果，為影像帶來更多的真實感。以許多真實感滿滿的 AI 人像為例，就常常使用 Laura 模型。這些微調模型能夠更加精細地處理影像中的噪點，根據不同的需求進行針對性的降噪和最佳化。同時，它們還可以結合更加多樣化的訓練素材，避免了單一風格素材帶來的局限性。例如，透過引入不同風格的真實照片作為訓練素材，讓 AI 學習到更多真實世界中的細節和特征。此外，一些微調模型還可以對影像的色彩、光影等方面進行更加細膩的調整，使得生成的影像更加接近真實世界的視覺效果。總之，這些微調模型的出現，極大地提升了 AI 生成影像的真實感，為 AI 生圖技術的發展帶來了新的突破。

五、AI 假人博主問題

（一）假博主的湧現

隨著 AI 技術的流行，短視訊平台上湧現出大量假冒真人的數位人帳號。其中，有些是透過 AI 憑空生成的，有些則是盜用了真人肖像，不乏國外面孔。例如，卡塔琳娜是一位在中國生活了 5 年的俄羅斯女孩，擁有超過 10 萬粉絲，其視訊均由 AI 生成，而她的「臉」來自於烏克蘭網紅 Olga Loiek。Olga Loiek 不是唯一一個被「盜臉」的人，社交平台上還有很多網友發帖稱，有 AI 博主盜用了自己的生活照。

這些假博主的帳號通常顏值出眾，或跟進熱點及爭議性話題，或輸出情感類「心靈雞湯」，或打著交友等噱頭，賺取流量進而帶貨。以卡塔琳娜為例，她的商品櫥窗裏共 6 件商品，均為進口食品和保健品，截至 3 月 19 日，跟買人數達 2.5 萬 +，已售件數達 2 萬 +。

（二）背後的生意經

假博主背後已衍生出一條灰色產業鏈。首先，在帶貨方面，這些帳號主要透過視訊中附帶商品連結的方式帶貨，粉絲以中老年人為主。例如，有短視訊公司打造了幾十個類似帳號，每個帳號每天耗費一兩個小時，以積累粉絲、帶貨為目的。

其次，在賣教程方面，有人做起了專門的代理、培訓生意。購買 AI 數位人視訊制作教程會附送人物素材，收費為 2980 元，帶貨所得與學員均分。在電商平台上，輸入「AI 美女」，即可看到「新手日入 2000+」「5 分鐘制作視訊」等極具誘導性的宣傳語，多以網盤的形式發貨，標價在幾元至幾十元間。

然而，這種行為可能涉及諸多法律問題。根據民法典規定，使用他人肖像需要經過他人的事前同意，否則構成肖像侵權。即使被侵權方在國外，也不影響侵權的認定，不過他們維權比較困難，成本比較高。虛假宣傳也是一個值得關註的問題，使用他人肖像合成 AI 視訊進行直播帶貨，可能會涉及到對於買方的虛假宣傳，甚至欺詐。此外，在某種情況下，制作未經授權的真人數位復制品也可能涉嫌構成刑事犯罪，比如利用他人的肖像合成的 AI 視訊，從事詐騙等違法犯罪活動。去年 8 月，公安部通報全國公安機關打擊整治侵犯公民個人資訊違法犯罪行為舉措成效，其中提到，公安機關依托「凈網」專項行動，組織專項會戰，破獲涉「AI 換臉」案件 79 起，抓獲犯罪嫌疑人 515 名。

六、AI 生圖的未來展望

AI 生圖技術無疑展現出了強大的潛力和創造力，但同時也帶來了諸多挑戰，這使得其未來發展既令人期待又需要我們謹慎對待。

從積極方面來看，隨著技術的不斷進步，AI 生圖在各個領域的套用前景廣闊。在設計與創意產業中，設計師們可以更加高效地獲取靈感，創作出獨特的廣告設計、產品包裝和品牌標識，為企業帶來全新的視覺沖擊。在建築設計領域，AI 生圖能夠快速生成方案並進行視覺化展示，加速計畫進展，提高設計效率和準確性。在醫學領域，AI 生成圖片技術可以輔助醫生更準確地分析和診斷病情，提前發現病變，為患者提供更好的治療方案。在影視娛樂產業中，AI 生成的影像和特效能夠為觀眾帶來更加震撼和逼真的視覺體驗，同時降低制作成本，提高制作效率。

然而，AI 生圖技術也面臨著一些挑戰。首先，版權和倫理問題亟待解決。目前，AI 生成的影像版權歸屬尚未明確，容易引發侵權糾紛。此外，AI 生圖技術可能被用於生成具有誤導性、歧視性或侵犯私密的影像，引發倫理爭議。其次，技術門檻和資源消耗較高，限制了其在大規模場景下的套用。AI 生圖技術涉及深度學習、自然語言處理等多個領域的復雜技術，對開發者的技術水平胡資源投入要求較高。許多小型團隊或個人難以獨立開展相關研究或套用開發工作。同時，AI 生圖模型的訓練需要大量的計算資源和時間成本。

為了實作 AI 生圖技術的永續發展，我們需要采取一系列措施。一方面，政府和相關部門應加強對 AI 生圖技術的監管，完善相關法律法規，明確版權歸屬，保護智慧財產權和個人私密。另一方面，企業和開發者應不斷提升技術水平，降低技術門檻和資源消耗，提高生成影像的品質和效率。同時，要註重使用者需求，提升產品的專業效能和實際套用價值，為使用者提供更好的體驗。

總之，AI 生圖技術的未來發展充滿了機遇和挑戰。我們需要在充分發揮其優勢的同時，積極應對各種問題，以實作其永續發展，為人類社會帶來更多的創新和價值。