當前位置: 華文世界 > 科技

昆侖萬維方漢:AI搜尋產品形態加速變化,智能體潛力巨大

2024-05-14科技

本文轉載自極客公園

近期,OpenAI 搞了一個大花活。

整整一周,不斷有外媒獲得最新訊息,報道 OpenAI 即將推出搜尋產品,甚至前幾天,已經有媒體拿到了 ChatGPT Search 的提前體驗版本——界面仍然是對話互動,但 GPT 回答時會使用網絡資訊進行回答。

不過,在預熱了一整周後,5 月 11 日最新訊息,OpenAI 在下周將舉行釋出會,但將不會釋出 GPT-5,也不會釋出 AI 搜尋引擎。

AI 搜尋目前是海內外 AI 創業團隊的重要方向之一。在海外,主打 AI 搜尋的 Perplexity 目前估值已經超過 10 億美元。

OpenAI 為什麽會選擇這個時間點做了一波這樣的宣傳?如果 OpenAI 真的入局搜尋,會對搜尋格局帶來什麽影響嗎?對於創業者來說,AI 搜尋是一個好的方向嗎?

5 月 10 日,極客公園創始人&總裁張鵬、推出國內第一款融入大語言模型的搜尋引擎-天工 AI 搜尋的昆侖萬維董事長兼 CEO 方漢,和投資了最近幾個月數據飆升的秘塔搜尋的獵豹移動董事長兼 CEO、獵戶星空董事長傅盛,在極客公園「今夜科技談」的直播中,共同聊了聊這個話題。

以下為昆侖萬維董事長兼 CEO 方漢的精華觀點,分享如下。

01.

OpenAI 做搜尋,能做出什麽新的花樣?

極客公園:OpenAI 為什麽在這個時間點上,傳出要推出搜尋引擎

方漢:我首先非常贊同傅盛老師一個觀點,就是 Sam Altman 的確是一個 PR 高手,而且是是絕頂高手。

我認為在 OpenAI 裏面,權力最大的其實是 PR 團隊,或者說負責去融資的團隊,其次是技術團隊,再其次是產品團隊。我認為這個排序導致了 OpenAI 做出了種種行為。

GPT-4.5 和 GPT-5 為什麽遲遲不發?根據我得到的訊息,OpenAI 已經訓出來了,也不是能力不行,但是它現在沒有把握在工程上把這個東西效益最大化。

這個的意思是什麽?剛才我們也聊到了,使用者漲不上去是 OpenAI 現在最頭疼的事情。如果釋出了一個新的大模型,它沒有把握一次性、瞬間獲得足夠多的使用者,那它就不會上,這是它根本性的原因。

那麽發搜尋產品呢?我們目前看到的產品形態上來講,OpenAI 的搜尋產品,並沒有對海內外所有的搜尋引擎產品,形成碾壓,形成 SOTA(state-of-the-art,最佳表現),釋出這個產品,可能會讓使用者有一點增長,但不會讓使用者翻倍增長。所以我認為,這是在 Google I/O 前一周對谷歌的一次戰略狙擊,它的根本戰術上,還是在等待和籌備 GPT-4.5。

極客公園:OpenAI 如果推出搜尋引擎,會解決 OpenAI 的什麽問題嗎?會使搜尋引擎的格局有變化嗎?

方漢:我覺得它應該能提升使用者使用上的體驗,但是對大盤影響不大。

最早 Bing 推出 new Bing 的時候,把谷歌都嚇死了,但最後對於 Bing 的大盤其實沒有什麽影響,谷歌過了半年一看市場份額好像沒什麽變化。我覺得搜尋引擎對於 OpenAI 的使用者增長也不會有根本性的變化。

極客公園:在部份灰度使用者的測評中,我們看到此次 OpenAI 所說的搜尋產品,其實產品形態和現有的搜尋產品很接近。是不是 AI 搜尋的產品形態,沒有太多的創新空間了?

方漢:我認為現在的 AI 搜尋的產品形態只是一個暫時的一個形式,為了讓傳統搜尋引擎使用者,能夠很順暢地遷移到新形態的 AI 搜尋上去。但是隨著技術和產品的叠代,我相信新的互動形式、新的產品形式都會在 AI 搜尋上展現。

比如我們可以看到這次 OpenAI 的搜尋 GPT,裏面含了一個功能叫 wikis,我認為可能就是用 GPTs 這種 agent(智能體)來實作的。在搜尋的時候,可以呼叫各種各樣的模型解決使用者的問題,將是 AI 搜尋的上限所在。

也就是說,根據使用者的特定需求,我可以呼叫各種各樣的模型,我可以呼叫轉譯模型,我可以呼叫總結模型,我還可以呼叫 tts 模型,把它轉成語音輸送給你。如果使用者想在論文方向搜尋,我專門做一個論文的智能體,呼叫這個智能體來回答你的問題,這個上限我覺得是非常高的。

在我們的實踐過程中,我們的天工 AI 搜尋裏面已經整合了大量的官方的制作的智能體來提升 AI 搜尋的效果,且推理成本其實還是可控的。

但是我這裏要吐槽一下 OpenAI。因為我看了 OpenAI 的使用界面之後,我心裏的想法是,他們的技術話語權遠遠超過產品的話語權。

search.chatgpt.com 的網頁存檔 目前該網站無法開啟 | 圖片來源:X 使用者 Tibor Blaho

為什麽這麽說?

它們的產品裏,要搜尋,首先要選模型,兩到三個模型,還要選是否使用影像搜尋等等,我覺得復雜度比谷歌還高。我一個做技術的人,我看沒有問題,但很多使用者一定是用不明白的。

所以總的來說,我認為 AI 搜尋的形態仍然有非常大的前進演化空間,但具體怎麽變,說實話我也很難預測。

OpenAI 也沒有帶來太多產品形態方面的驚喜,最多就是這個 GPTs,但我覺得在國內的人看來,比起我們熟悉的微信小程式什麽的,看起來也還是挺落後的。

02.

AI 搜尋好在哪?從設計原理上解決幻覺問題

極客公園:AI 搜尋相對於傳統搜尋引擎有哪些區別,有哪些優勢?

方漢:傳統的搜尋引擎是透過爬蟲,把互聯網上所有的網頁都抓取回來,然後經過清洗跟排序,最後在使用者打出查詢詞的時候,搜尋引擎按照自己的邏輯,對網頁進行排序,給到使用者。整個過程,使用者需要自己選點那個網頁,點開之後也要自主去看。

而 AI 搜尋,讓使用者省去了去點網頁、選網頁以及看網頁的過程,你直接看到的,就是它對現有網頁的一個總結結果,相當於一個搜尋小秘書。

它最大的作用是什麽呢?是降低了使用者的搜尋時間,以及提高準確性。

我們都使用過傳統搜尋引擎。要去開啟網頁看內容,看完了靠人腦去總結,耗時其實是蠻長的,基本上都要幾分鐘,但現在大模型替你做這個事情,它可以在幾秒鐘之內就可以給你一個總結,基本上天工搜尋的使用者基本上都會反映它極大地提高了大家的工作效率,甚至它一些總結,包括腦圖 PPT 你可以直接用。

天工 AI 搜尋的增強模式(共有簡潔、增強、研究三個模式)| 圖片來源:截圖

在傳統搜尋引擎中,最早谷歌搜尋引擎除了搜尋按鈕以外,還有另外一個按鈕 I feel lucky,點一下就直接進入第一個搜尋結果,實際上是傳統搜尋引擎降低交付的走成本的一個嘗試。本質上我們現在所有的 AI 搜尋就是 I feel lucky 那個按鈕所起到的作用,只不過我們做的比他們要好得多。

另外就是準確性。AI 搜尋解決了大模型的幻覺問題。大家一開始用 ChatGPT,其實很多人是把它當搜尋引擎用的,但實際上它是會經常一本正經的胡說八道。AI 搜尋透過 RAG 這些技術,先找到事實,12345,限制大模型根據以上事實來回答問題,能極大地抑制甚至徹底消除大模型的幻覺。

極客公園:使用者願意信任 AI 搜尋嗎?AI 搜尋是不是只是一小波使用者的需求,而不是一個大眾需求?

方漢:我認為 AI 搜尋首先是沒有幻覺問題的,因為從技術原理上來說,它是先搜尋再總結,然後再透過智能體去處理。在這個流程過程中,我們從源頭杜絕了這個欺詐的問題。

同時傳統搜尋引擎,要列出更多網頁,需要保證這所有網頁都不是欺詐網頁。而我們只需要把這些網頁裏面我們認為最可靠的三個,互相交叉驗證之後最可靠的三個的內容進行總結,展現在網頁上給使用者去看,那麽一定是可靠性是增強了的。

我們都有能力鑒別一個網頁是不是欺詐,但並不是所有使用者都這樣。我們的父母輩,他們真的是沒有能力鑒別這一點的。天工搜尋有合規小模型,反欺詐模型來篩選網頁,也會從 prompt 端最佳化讓模型輸出多數網頁認可的價值,那鑒別能力低的使用者用 AI 搜尋,效果一定是正向的。

我們這些很熟悉技術的人,自己很熟悉傳統搜尋,能夠主動地去合適的網站找到合適的內容,所以有時候覺得一部份需求好像 AI 搜尋滿足不了。但我們不要忘記,AI 搜尋從出現到現在也就一年多的時間,隨著時間的推移,我認為 AI 搜尋在體驗、準確性等問題上都會遠遠超過搜尋引擎。

我們的使用者數據裏看到,天工搜尋的使用者的粘度是非常高的,非常信任我們。為什麽?因為他們會看我們給出的索引。

比如說體制內的人用我們的搜尋幫助寫公文,他會發現我們索引,參照的都是官方媒體的,他用了幾次之後就會非常信任我們,所以我認為,信任會隨著時間的推移而逐漸增強。

天工 AI 搜尋的研究模式(共有簡潔、深入和研究三個模式)|圖片來源:截圖

至於使用者群體,我剛才也提一下,new Bing 出現後,Bing 搜尋引擎的市場份額只有小幅增加。那是因為它當時的智能體的技術不成熟。

使用者上來就是搜一首歌、搜個電視劇、看個八卦什麽的,我認為這部份需求用智能體一定是可以解決得非常好的。

有了智能體的技術,使用者更多的長尾需求可以得到滿足,那麽我認為使用者量的增長是指日可待的。

我完整的經歷了中國搜尋引擎的發展過程。當初百度搜尋在那個北大燕園資源樓辦公的時候,我還去參觀過。其實最早用搜尋引擎的人,也全是像我們這樣的一些技術極客,但慢慢的它就會泛化到全人群。我認為 AI 搜尋也是這樣。

現在使用我們 AI 搜尋的主要使用者應該還是白領使用者以及技術極客居多。隨著時間推移,AI 搜尋也一定會逐漸被更多樣的人群使用。

03.

AI 搜尋的商業前景:成本低於5美分就能盈利

極客公園:傳統的搜尋引擎,使用者免費使用而 B 端投放廣告,形成了成熟的商業模式。AI 搜尋中,使用者直接得到搜尋結果,會不會改變商業模式?能夠盈利嗎?

方漢:上個時代的搜尋成本,它首先有個固定開銷,就是你的爬蟲集群的開銷,這個爬蟲集群,如果索引全球的網頁的話,那基本上在 3, 000 台伺服器到 1 萬台伺服器之間,這是個固定開銷。

另外一部份成本就是做 page rank(網頁排名),這個伺服器規模是更為龐大的,且是動態開銷。你的使用者越多,你這個集群就需要越大。

在這兩個開銷之外,還有人員成本。

所有這些都加起來之後,谷歌每年搜尋引擎查詢次數是 3.3 萬億次,單次搜尋的成本是 0.2 美分。然後整個谷歌搜尋廣告的收入是 1, 500 億美金左右,去年可能是 1, 600 億差不多,可以算出來差不多一次搜尋產生的收入是 5 美分左右。

然後再跟大家說一個數碼,OpenAI 早期的成本,註意不是現在的成本,早期的成本,一次對話的成本是 36 美分,就是你可以看到這裏面有幾個數碼差,36 美分、 5 美分、 0.2 美分。可以看出來,推理成本,是 AI 搜尋商業模式中非常關鍵的因素。

我再跟大家分享另外一個數據,文生圖有一個開源模型,叫 Stable Diffusion。我記得非常清楚,在 2022 年的時候我開始使用它,當時一張 4090 的卡平均是跑 3 分鐘出一張圖。今天我用 4090 還是同一張卡,我一秒鐘能出 100 張圖。可以看出,推理的最佳化速度非常快。我認為跟摩爾定律是有點像的,推理成本的下降速度跟摩爾定律是一樣的,非常快。

甚至未來,端側推理變得足夠成熟之後,在端側去做這件事情,幾乎不存在推理成本了。我認為 AI 搜尋商業模式應該很快就可以打正,這只是一個時間問題。

在商業模式上來說,最基礎的 AI 搜尋的商業模式,一定是靠廣告資訊流,那麽這個商業模式也是非常成熟的。實際上國內的單個搜尋,能夠收到的錢比國外高很多,但基本上也是在 5 美分或者是幾十美分這種量級,我們認為這個東西短期內也不會有太大的變化,所以我們也在一直最佳化,一定要把我們的推理成本打到 5 美分以下,整個商業模式才會成立。

我認為這個現在也不是特別難的事,這一天遲早會到來。

我們還會做智能體,智能體實際上屬於 VIP 服務了,還可以收到更高的費用。

極客公園:AI 搜尋是創業者的好機會嗎?

方漢:首先我認為 AI 搜尋不是創業者一個好的方向。很簡單,AI 搜尋,如果你要想做到成本最低,你一定要自建搜尋引擎索引庫,這個成本是非常高的,我不覺得一個小創業者能解決這個問題。

我們公司做這個事情是因為我們原來在海外做 Opera News 這個新聞推薦產品的時候,從 16 年開始就自建了一個比較小的一個搜尋引擎,我們當時每天大概索引 5, 000 萬個新聞網站,我們整個 AI 搜尋的引擎團隊是一脈相承的,也就是說我們做這個搜尋引擎的集群已經做了有七八年了。

索引庫實際上就是爬蟲集群和儲存集群。比如有做個人站的,你能看到的個人站上,有幾個網站帶著 bot 的標誌來爬蟲你的個人站了,你就知道有哪幾個公司是有自己的爬蟲集群的。

這一塊其實是一個比較大的成本,因為如果你沒有的話,你就得去買第三方的服務,比如呼叫 Google 的或者是 Bing 的索引庫,給他們錢。那基本上,購買第三方服務就可以把你所有的利潤都吃完了。谷歌自己的成本是 0.2 美分,那你覺得它會賣你多少錢它覺得合適?

這個成本遠比你的推理成本要高,而且推理成本在迅速地下降。

看未來的話,AI 搜尋最後可能不會取代市場上的老大,但它有可能把市場上的老二老三給擠下來。

即使現在有谷歌搜尋,其實同時仍然還有很多的搜尋引擎。垂類的搜尋引擎活得很好,比如 DuckDuckGo。我認為這種引擎反而是未來受到威脅最大的。

另外我反復強調智能體,你的智能體如果能夠滿足一部份垂類使用者的需要,那你這個 AI 搜尋就能夠長期存在,而這些特定領域,搜尋巨頭未必能覆蓋的到。舉個例子,搜論文,谷歌做了一個學術搜尋,但是在中國有知網,然後在海外還是有 Arxiv,垂類領域我們認為 AI 搜尋透過智能體的賦能空間還是非常大的。

天工 AI 的智能體廣場 | 圖片來源:截圖

極客公園:未來搜尋這個形態本身,還有搜尋的市場格局,會發生變化嗎?

方漢:一個比較少被討論的點是,在現在的搜尋格局下,谷歌和百度這兩個搜尋巨頭,都在自建內容閉環。谷歌給 Wikipedia 捐了很多錢,20% 的流量落在 Wikipedia 上。百度有百度百科、問答等等。

大模型可能會完全顛覆內容閉環這件事。Wikipedia、百科都需要人工編輯,只要需要人工編輯,維護成本就非常高,而目前看到,大模型是有機會自己去生成 Wikipedia 的。我覺得下一段時間 AI 搜尋都會聚焦的一個方向,是內容生成。

包括我們看到,微軟的新模型,是使用 GPT-4 生成的教科書來訓練的。大模型現在已經可以生成教科書了,雖然這個教科書用來訓練模型,我們實際看到其實效果不太好,但仍然可以側面說明,我們離生成合成數據越來越近了。

傳統意義上的搜尋,它只是一個很長一段時間最適合我們獲取資訊的一種方式。然後隨著大模型的進步,隨著 AI 的進步,我們認為我們有能力給使用者提供更方便、更直接的這樣一個體驗。只要你能夠讓使用者真正的省時間,真正的能提高準確性,變方便,那麽你的使用率自然會上升,你的留存自然會變好。

大家都現在都在卷模型的指標。以後當技術進步放緩的時候,我認為產品就會介入。現在這一波 AI 創業中,產品的話語權是遠遠低於技術的,我認為這個情況是不太正常的,長期來看一定是改變世界的是產品。

2023 年搜尋引擎市場份額 |圖片來源 YouTube Data Wrap

未來的搜尋市場份額,我認為新產品一定是能拿到的。谷歌這樣的大公司,沈沒成本太高了,行動速度一定是比新產品慢的。但是能不能守住這個市場份額,以及能不能顛覆這個市場,是不一定的。

●昆侖萬維23年收入49億凈利潤13億,研發費用增長40%,堅定All in AGI與AIGC ●中國首個音樂SOTA模型「天工音樂大模型」今日公測 ●「天工大模型3.0」4月17日正式釋出——同步開源4000億參數MoE超級模型,效能超Grok1.0 ●「天工2.0」MoE大模型釋出 ●昆侖萬維開源「天工」Skywork-13B系列大模型,0門檻商用●用大模型重塑搜尋 昆侖萬維釋出國內第一款AI搜尋產品