深度揭示AI大模型——如何將其變為我們每一個人都能運用的助推器

2024-02-21科技

2023年3月chatgpt橫空出世，掀起了一場大型AI熱，各行各業大到行業巨頭，小到個體戶，都陷入了沈重的AI焦慮癥之中。過去一年以來，眾多國產大模型陸續推出，又讓我對AI革命有了一些新的思考，其中最關鍵的是我發現過去半年AIGC的理論和現實之間出現了一個吊詭的矛盾，哪怕大家都知道AIGC很強，GPT很強，大模型很強，甚至金融等行業已經應急性的做出了漲跌判斷和裁員決定，但實際除了與aigc強關聯職業，大多數人反饋是，AI革命並沒有對實際工作流產生太多影響。

很多領導認為出現了midnight，那員工應該立即變成達芬奇，三分鐘一張超高畫質原畫；出現了GPT4和cloud，但員工應該變身專家學者，一天寫10篇10萬+；出現了AI編曲軟體，員工應該一天一首廣告歌。在領導和老板的yy下，勞動者都修煉了AI互動，明明是自己親手做的事情，卻要和老板說是AI做的才能順利交差。並不是說AI大模型革命是像元宇宙這樣的虛假噱頭，因為諸如gpt club混元這樣的大模型能力是實打實的。大多數人在一定程度上誤解了AIGC大模型在下一次工業革命中的角色，這種落差的核心原因在於我們對AI大模型的定位不清，AI大模型並不是一台已經造出來的汽車，你有了駕照就能開上路。AI大模型更像是一種新型引擎，對人類的資訊數據進行能量轉換，他必須在不同行業裏找到適合套用場景，被裝進不同的機器裏才能起到特定的作用。而大多數人套用大模型就相當於把布加迪用的w16發動機裝到馬車上，馬車不光跑不快，馬更會覺得引擎不如不裝，因為這輛車變重了，拉起來更費力了。

現在大多數被強迫使用AI的工作者，就是拉著最先進引擎的馬，AI大模型的本質並不僅僅是一個資訊庫，而是帶著既定指令，比如回答特定問題，重新理解和變異人類有史以來所有智力創造的資訊。透過訓練人類歷史、及類、文本和數據獲得了語言理解和生成能力，完成問答文本生成等任務。AI大模型實際的核心創新在於訓練方式的轉變，以往的語言模型更註重特定領域的套用，因此能力範圍和上限十分有限。

新時代基於穿刺分位結構的AI大模型，采用了無監督的預訓練模式，透過預測文本中的下一個詞來獲得語言的統計規律，從而獲得語意理解能力。這種訓練方式無需標註大量樣本，降低了人工成本，也就是說作為引擎，它接收和轉化資訊燃料的效率要更高。

如果說人類此前的技術都是特定器官的延伸，那麽AIGC就是人類最重要的器官大腦的延伸，工業革命以機械取代了人類重復性體力勞動，AIGC未來要取代的則是重復性智力勞動，這必然將帶來人類教育體制和就業系統大變革，哪個國家或組織都率先適應這個變革，針對生產力的變化進行生產關系的調整，就能像18、19世紀的英國一樣，搭上革命快車。美國社會學家大衛格雷博10年前就提出，白領工作有90%是狗屁工作，是無意義的，按部工作主要是形式主義的資訊在編譯和傳遞，AIGC勢必會取代這些工作，並在短期內帶來失業問題，但長期就會解放了人類勞動，問題在於制度設計者能不能提供更有價值更有意義的工作，讓人類接入新系統自我升級，這是個量變到質變的過程，傳統工作更註重員工輸出數量，完成盡量多的工作。這些繁雜的瑣事必將被AIGC替代，倒逼企業和員工透過AIGC深化自己的理解，成為更強大也更自由的人才。

事實上當大家意識到gpt不是萬能的神後反而覺醒了新意識，那就是下一個風口在於如何把AIGC大模型落地找到更好的方式，把自己接入大模型，這個接入並不是說會用聊天機器人掌握幾個prompt就可以了，而是說我們能否依靠大模型做出我們自己的東西。通用大模型的聊天機器人功能最後必然將逐漸成為復增，功能核心在於aigc如何深度賦能，各個行業組織完成套用落地。在這個意義上對這種量級的工業革命來講，是否早一個月發明電燈泡，在長的時間跨度上來看並不重要，關鍵是底層演算法算力和數據來源以及最終的落地場景。

因此AIGC更像是資源革命，象征人類發現了全新資源處理模式，在歷史上人類每一次大型生產革命都是在處理已有資源農業革命，再處理土地和作物工業革命，再處理化石能源，而AIGC革命就會再次處理人類智力的歷史沈澱，積累下來的知識和所謂的註意力資產，也就是人類有意識所釀造的資訊和無意識所輸出的數據。比如每日的互聯網行為，這些可以被AI大模型提煉吸收的資訊數據，就是這個時代的新石油，但我們也要意識到從資源革命到民生革命之間有著很長的一段距離，具體體現在套用層面，人類第一次大規模開采石油在1859年，但是直到1908年t型福特汽車走進已開發國家家庭開始，人類才開始大規模感受到石油的威力，民生革命才開始。因此如何套用技術，如何避免馬拉引擎這樣的困局，對於大模型的進一步發展是極為重要的。

隨著第一批AI熱逐漸冷卻，大模型競爭格局逐漸明朗，AI領域從業者普遍意識到問題，不管在紙面數據上自家大模型能力有多好有多強，真正決定其價值的還是是否有用，是否根據行業需求客製最佳化。比如鵝廠的混元袋，模型算力充沛，只是基礎，會員的未來在於融合騰訊多行業深度服務經驗以及本土套用矩陣積累的產品理解，為不同企業需求提供具體的一站式解決方案，打通雲遊戲、科技會議文件、微信搜尋瀏覽器等等等上百個內部產品都已經接入會員大模型測試。

現在自由套用中產生套用場景，然後基於實踐情況最佳化問題，不在紙上談兵才更好的服務使用者。說到底技術創新的目的是更好的服務於人，現在產品端套用AI大模型才能理解使用者真正需要什麽，簡單的提升算力，不過是閉門造車，可以進行一個對比，使用AI大模型，就像開車硬實力、得於引擎效率越好的引擎帶來越好的效果，但好疫情也需要好汽車，不同場景也需要不同款式的車。F1賽場的高級柏油路需要賽車，鄉間泥濘小道運貨需要貨車，顯然是不同的結構。這也是為什麽GPT這麽強，各國都仍然熱衷於自研大模型，自研大模型並不是重復造輪子，要拋棄刷分思維，更好地套用於產業層面才能作為引擎服務於基礎，套用這輛汽車。

可以說AIGC對人類產業的革命就等於化石資源對工業的革命，這不僅是人們做事效率提高，比如寫份報告做成PPT變快的這麽簡單，而是人力資源和產品運作模式發生了本質改變，也就是人們做事情方式變了，比如遊戲產業革命會從簡單的疊加人力數量，故更多的策劃寫出更多支線，變成增加AI的算力和語料庫遊戲NPC，直接在劇情的線內反饋更復雜反應，因為人類智力的歷史沈澱早就總結出了故事型別、人物型別大模型，做的只是依靠高算力選出合適的物料提供給你，這就是量變，首先發現你走神了，請專註駕駛，你絕不是100個普通程式疊加計算就能企及的，這背後所反映的是典型的工作方式和思維模式的不同。因此AIGC作為資訊革命的新戰場，相關的技術和資源都非常重要，但資訊數據大模型之間的關系要比石油引擎更復雜，資訊數據並不是如石油一樣的恐龍屍體，而是無數活生生的人類所沈澱下來的思想勞動和娛樂產物。

石油是均質化資源，IP4的燃料資訊數據具有高度差異性，人類文化已經千千萬。因此針對不同國情設計的大模型，在面對不同問題的實際效果大不相同。gpt3裏中文語言語料數據占比僅為0.1%，可以說是所有主流語言裏最少的，哪怕連俄語都有0.19%，這就是為什麽gpt嚴重水土不服出現大量的幻覺問題或者直接胡編亂造發明歷史，這也是為什麽不會有天網訓練出完全一統江湖的超級通用人工智慧，能夠無差別的解決所有問題。

許多電腦科學家哲學家都保持懷疑，人類世界太復雜了，幻想一個大模型解決所有問題是一種典型的上帝情節。於是乎AIGC革命爆發後，第一場局部戰爭就是資料庫版權之戰。很多人可能還沒充分理解數據生產領域對於AIGC大模型來說意義有多麽重大。舉個最簡單的例子，國內外數據收費已經是大勢所趨，美國知名論壇ridic今年4月18日宣布計劃向透過其API，使用數據的公司收費，收費標準尚不明確，但ride表示會分為不同等級，根據使用規模和需求區分，更多獨門數據，許多公司幹脆就是不開放，因此掌握本國語料庫資源，並研究出處理本國語料技術非常重要，這相當於AIGC時代有自己的油田，掌握自己的油氣精煉技術進行對應的引擎研發，最終推進更進一步的AIGC大模型實際運用。這點上混元大模型其實有先天優勢，首先在語料庫來源和計算上，鵝廠主打實用級大模型框架，這裏的實用級不是話術，不僅說的是終端實用，還有前端資源調動。碼頭就有一句話garbage in、garbage out，垃圾進垃圾，出源頭資源，如果劣質，後期無論怎麽努力都救不回來的。在有了優質能源之後，考驗AIGC模型的就是燃料精煉能力，也就是如何把資訊數據算清楚。在這個問題上全鏈路字眼的表現雖然是最好的，比如鵝廠自研的路徑規劃，從模型演算法到機器學習框架，再到AI基礎設施的全鏈路，自研，技術的能力就非常強。

這項新技術在實踐中的表現為降低大語言模型換選比例，尤其是中文相關的問題和資訊，處理復雜使用者指令，針對中文最佳化提升模型的邏輯思考能力和抗誘導能力，覆蓋長短文本生成能力，這兩點就等於是獨家的油田和石油開采技術，擁有了幹凈的有品質的能源，才可以輸入給後端引擎，AI大模型和汽車具體的AI套用。

當然這只是比喻最後落地的AI套用場景千變萬化，比汽車復雜的多，因此對前期燃料也就是資訊數據處理的要求也就高得多，這種文化資源層面的差距甚至大於沙烏地原油和委內瑞拉原油，誰掌握簡中互聯網最優質的語料庫資源來源，誰才是下個時代的贏家？現在很多人會擔心AI這些模型吃掉那麽多數據，是否會對私密造成威脅？好像原來煉油不需要理解是什麽，恐龍的屍體也變成了石油戀愛，這些不在於資訊的冗余細節，大模型學習世界知識，使其具備類似人類一樣的上下文理解和推理能力。

這裏的世界知識主要存在於互聯網上大量的公開網頁內容和書籍等，具有知識量大，專業度高，知識密度高等特點，人類沈澱數千年的知識，作為書面語言邏輯性品質也比較高，而個人資訊主要是個人標識，知識量較低，大模型並不需要。另外微信QQ聊天記錄都是口語化的內容和日常瑣事，其本身沒有什麽知識密度，邏輯性也不高，因此大模型同樣不需要這些冗余資訊。大模型和傳統數據科學最大區別在於前者的大來自本質為通用型，大系統在塑造沒有既定的套用目標，就好像人的大腦一樣，並不是按照特定技能或套用場景去設計，而是希望去創造。

因此大模型不需要關心事物具體特征，人的具體資訊，關註太多相關度和價值不高，資訊只會拖累大模型的效能。另外主流大模型。要註意一個資訊量，註意我們的個人資訊，一方面是防止模型無意中被動學習，另外很多飛機後個人資訊無法鑒別真偽，大拇指有動力去去掉這部份資訊。更硬性的法律層面，除了英美歐三方早已推出各路數據保護法，中國在2017到2021年高強度立法涉及網路安全、數據安全和個人資訊保護，這也促進了。

AI大模型現在是聚光燈下的舞者，一舉一動不會被社會大眾和有關部門嚴密關註。所有大模型無論中外，都在全力避免泄露使用者數據的惡性事件。事實上我認為大家對於私密問題是個非常好的關於大模型的社會討論的起點，可以說對於這樣一個技術，人類目前知道的理解的仍然太少了，它涉及到了我們作為主體，作為人類那些最優微的內部性，關於意識、關於思想、關於勞動，歡迎我們能把自己職稱為人的一切，我們如何與這樣一個新時代的偉力達成和解，達成共識，這個問題的重要性也許並不亞於我們如何認識自己，如何與其他主體相互理解這些哲學和政治學上的底層難題，這也是屬於我們這個時代的人最復雜的難題。