當前位置: 華文世界 > 科技

AI搜尋混戰:一場「套殼」傳統搜尋的智商稅?

2024-07-11科技

文 | 堅白鳴

ChatGPT式的純粹生成式AI,曾一度被人們寄予取代搜尋引擎的熱望。但截至目前仍無法徹底矯治的間歇性「胡說」,以及無法與世界同步更新的局限,意味著取代的夢想仍然可望而不可即。

於是,AI搜尋成為退而求其次的選擇,企圖繼續以生成式AI的名義顛覆傳統搜尋。然而,盡管AI搜尋賽道看似生機盎然,但究其本質,目前而言,AI搜尋並非AI對搜尋的借屍還魂,更多的其實僅僅是「套殼」——AI是殼,傳統搜尋是核。

而這層殼本身的效用也極為可疑。如果AI搜尋可以直接給出答案,那又何必附上連結?貌似簡潔嚴謹的背後,除非使用者選擇輕信,否則並不能真正提高效率。

搜尋的核心問題

搜尋的核心問題是匹配,是使用者的查詢需求與互聯網已有資訊的匹配。上世紀90年代以來,隨著互聯網資訊的急速膨脹,匹配便越來越成為一個棘手難題。

第一代互聯網巨頭雅虎選擇的匹配方案,是分類索引。這是傳統整理資訊方式的延續,由人工獲取網站資訊,然後按照一定的標準將網站分門別類,在大的類目下再建立小類目,本質上與圖書館的檢索目錄並無不同。而最後的呈現形式就是經典的入口網站,使用者如果要查詢特定資訊,需要按照頁面提示,一級一級地找下去。

2000年以後,以谷歌為代表的搜尋引擎開始取代雅虎的入口網站,成為新的互聯網資訊入口,原因是它提供了更好的匹配方案。

從邏輯上講,一個好的匹配方案,需要解決兩個關鍵問題。首先是要解決資訊量的問題,它所涵蓋的資訊越豐富越好,這是匹配的基礎,只有涵蓋的資訊包羅永珍,才有可能滿足各式各樣的查詢需求;其次是要解決精準度的問題,針對具體的特定的查詢需求,提供的資訊相關性越高越好,最好是可以直接提供答案本身。

相比雅虎的分類索引,谷歌搜尋引擎在兩大關鍵環節均實作了突破性革新。

在資訊覆蓋度方面,谷歌搜尋引擎引入了爬蟲,它像蜘蛛一樣順著網頁上的超連結,日夜不息地爬遍全球資訊網的角角落落,將海量網頁納入收錄範圍。

在精準度方面,谷歌搜尋引擎按照關鍵詞,對爬取的網頁進行索引,並借鑒了評估論文影響力的方法,提出「佩吉排序演算法」(PageRank Algorithm),對網頁的重要性進行評估,針對使用者的特定查詢請求,谷歌搜尋引擎先將請求分解為關鍵詞,然後在索引庫中提取與關鍵詞相關的所有網頁,並結合網頁重要性等因子,計算特定網頁與使用者查詢需求的匹配度,最後按照重要性生成排序呈現給使用者。

從本質上來說,爬蟲軟體和網頁排序演算法是搜尋引擎的兩大支柱,支撐著浩瀚的網路資訊相對精準、更加高效地流向無數具體的查詢需求。

明白了這一點,就不難看清當下AI搜尋的「套殼」本質。

AI搜尋的本質

前OpenAI研究科學家Aravind Srinivas聯合創辦的Perplexity,是這波AI搜尋熱潮的掌旗官,GPT3.5釋出一周後,Perplexity就正式上線了,它自稱是世界上第一個對話式答案引擎。

相比傳統搜尋引擎,Perplexity最核心的特色是改變了使用者與引擎互動的方式,在輸入端,它可以理解使用者輸入的自然語言,並且支持多輪對話,在輸出端,它直接給出經過歸納整合後的答案,並附上得出答案的資訊來源。

此後,國內外廠商推出的一系列AI搜尋引擎,基本都采用了相似的模式,僅在細節上略有不同。比如國外以瀏覽器起家的The Browser Company推出的Arc Search,在輸出端,是一份圖文並茂的「報告」;國內的秘塔AI搜尋針對給出的答案還給出了結構化梳理,提供大綱、腦圖等呈現形式。

互動方式的革新,顯然來自於生成式AI的賦能。在大模型能力的加持之下,AI搜尋似乎已經徹底動搖了傳統搜尋引擎以關鍵詞為核心構建起來大廈,也讓一頁頁根本翻不完的藍色連線顯得更加冗長低效。

但這只是掩人耳目的表面文章。事實上,傳統搜尋引擎的關鍵詞體系以及網頁排序演算法,仍然是AI搜尋正常運轉所不可或缺。它們只是退居幕後,轉而充當AI搜尋通往浩瀚的互聯網資訊世界的介面。

這是因為,AI搜尋引擎並沒有直面搜尋的核心問題提出嶄新的解決方案,而只是嫁接了傳統搜尋引擎的匹配方案。AI搜尋引擎雖然能夠直接理解自然語言,但它最終仍然需要將其分解為關鍵詞,因為它需要呼叫傳統搜尋引擎。同樣,AI搜尋引擎雖然能夠直接給出答案,但事實上是基於傳統搜尋引擎排序演算法的結果進行加工整合。

可以看到,目前為止,所有的AI搜尋都在套殼傳統搜尋,區別只在於套的是自家的還是別人的。比如國外的Perplexity、Arc Search呼叫的都是谷歌、必應等搜尋引擎,據中金公司測算,Perplexity呼叫必應搜尋引擎及GPT-4的單個問題成本約為0.03美元。國內的秘塔,據披露有自建索引庫,而昆侖萬維旗下天工AI搜尋,自稱此前就有一個小型的搜尋引擎,並將其作為自身重要的成本優勢。

此外,近期相繼更新AI搜尋的騰訊元寶、知乎,在行銷層面也都在強調自己的內容優勢,騰訊元寶AI搜尋接入了微信公眾平台,「知乎直答」則以知乎多年來沈澱下的優質問答為基礎。

智商稅:一種提高效率的假象

但無論如何,無論是接入自家已有的傳統搜尋引擎,還是接入別人的搜尋引擎,甚至自己從頭開始新建一個引擎,只要爬蟲軟體以及基於關鍵詞的網頁排名演算法仍然在起關鍵作用,那麽,AI搜尋本質上就仍然是沒有自己獨立靈魂的套殼,是對於傳統搜尋引擎技術的修修補補,而絕不是谷歌顛覆雅虎那樣的匹配方案的創新。

那麽,這種小修小補有多大價值?它果真可以幫助使用者提高效率嗎?

目前看來也許並沒有,眼下AI搜尋呈現結果的形式,本身看起來就像是一個悖論。

AI搜尋既給出了答案,又附上了參考資料。從邏輯上看,這種呈現形式有兩種可能,其一是答案本身不完善,更多的細節需要使用者進一步閱讀參考資料。那麽,這意味著簡潔而直接的答案其實並沒有完全解決使用者的問題,簡潔只是一種假象。

其二是為了證明答案的客觀、準確,參考資料可以作為答案的有力印證。但這種看似嚴謹的解答方式,實際上也同樣並不能真正幫使用者節省時間。因為如果使用者同樣基於嚴謹考慮,其實只有在完整閱讀所有參考資料後,才能真正判斷答案本身是否客觀、準確,而如果進一步,即便參考資料與答案能夠相互印證,但這也並不意味著它們全面完整地呈現了事物的全貌,為了驗證這一點,其實還是需要更多的資訊的。

當然,使用者也可以直接選擇相信答案,那麽參考資料本身也就失去了存在的必要性,這確實大大節省了時間。但這毫無疑問是一種輕信。