当前位置: 华文世界 > 科技

昆仑万维方汉:AI搜索产品形态加速变化,智能体潜力巨大

2024-05-14科技

本文转载自极客公园

近期,OpenAI 搞了一个大花活。

整整一周,不断有外媒获得最新消息,报道 OpenAI 即将推出搜索产品,甚至前几天,已经有媒体拿到了 ChatGPT Search 的提前体验版本——界面仍然是对话交互,但 GPT 回答时会使用网络信息进行回答。

不过,在预热了一整周后,5 月 11 日最新消息,OpenAI 在下周将举行发布会,但将不会发布 GPT-5,也不会发布 AI 搜索引擎。

AI 搜索目前是海内外 AI 创业团队的重要方向之一。在海外,主打 AI 搜索的 Perplexity 目前估值已经超过 10 亿美元。

OpenAI 为什么会选择这个时间点做了一波这样的宣传?如果 OpenAI 真的入局搜索,会对搜索格局带来什么影响吗?对于创业者来说,AI 搜索是一个好的方向吗?

5 月 10 日,极客公园创始人&总裁张鹏、推出国内第一款融入大语言模型的搜索引擎-天工 AI 搜索的昆仑万维董事长兼 CEO 方汉,和投资了最近几个月数据飙升的秘塔搜索的猎豹移动董事长兼 CEO、猎户星空董事长傅盛,在极客公园「今夜科技谈」的直播中,共同聊了聊这个话题。

以下为昆仑万维董事长兼 CEO 方汉的精华观点,分享如下。

01.

OpenAI 做搜索,能做出什么新的花样?

极客公园:OpenAI 为什么在这个时间点上,传出要推出搜索引擎

方汉:我首先非常赞同傅盛老师一个观点,就是 Sam Altman 的确是一个 PR 高手,而且是是绝顶高手。

我认为在 OpenAI 里面,权力最大的其实是 PR 团队,或者说负责去融资的团队,其次是技术团队,再其次是产品团队。我认为这个排序导致了 OpenAI 做出了种种行为。

GPT-4.5 和 GPT-5 为什么迟迟不发?根据我得到的消息,OpenAI 已经训出来了,也不是能力不行,但是它现在没有把握在工程上把这个东西效益最大化。

这个的意思是什么?刚才我们也聊到了,用户涨不上去是 OpenAI 现在最头疼的事情。如果发布了一个新的大模型,它没有把握一次性、瞬间获得足够多的用户,那它就不会上,这是它根本性的原因。

那么发搜索产品呢?我们目前看到的产品形态上来讲,OpenAI 的搜索产品,并没有对海内外所有的搜索引擎产品,形成碾压,形成 SOTA(state-of-the-art,最佳表现),发布这个产品,可能会让用户有一点增长,但不会让用户翻倍增长。所以我认为,这是在 Google I/O 前一周对谷歌的一次战略狙击,它的根本战术上,还是在等待和筹备 GPT-4.5。

极客公园:OpenAI 如果推出搜索引擎,会解决 OpenAI 的什么问题吗?会使搜索引擎的格局有变化吗?

方汉:我觉得它应该能提升用户使用上的体验,但是对大盘影响不大。

最早 Bing 推出 new Bing 的时候,把谷歌都吓死了,但最后对于 Bing 的大盘其实没有什么影响,谷歌过了半年一看市场份额好像没什么变化。我觉得搜索引擎对于 OpenAI 的用户增长也不会有根本性的变化。

极客公园:在部分灰度用户的测评中,我们看到此次 OpenAI 所说的搜索产品,其实产品形态和现有的搜索产品很接近。是不是 AI 搜索的产品形态,没有太多的创新空间了?

方汉:我认为现在的 AI 搜索的产品形态只是一个暂时的一个形式,为了让传统搜索引擎用户,能够很顺畅地迁移到新形态的 AI 搜索上去。但是随着技术和产品的迭代,我相信新的交互形式、新的产品形式都会在 AI 搜索上展现。

比如我们可以看到这次 OpenAI 的搜索 GPT,里面含了一个功能叫 wikis,我认为可能就是用 GPTs 这种 agent(智能体)来实现的。在搜索的时候,可以调用各种各样的模型解决用户的问题,将是 AI 搜索的上限所在。

也就是说,根据用户的特定需求,我可以调用各种各样的模型,我可以调用翻译模型,我可以调用总结模型,我还可以调用 tts 模型,把它转成语音输送给你。如果用户想在论文方向搜索,我专门做一个论文的智能体,调用这个智能体来回答你的问题,这个上限我觉得是非常高的。

在我们的实践过程中,我们的天工 AI 搜索里面已经集成了大量的官方的制作的智能体来提升 AI 搜索的效果,且推理成本其实还是可控的。

但是我这里要吐槽一下 OpenAI。因为我看了 OpenAI 的使用界面之后,我心里的想法是,他们的技术话语权远远超过产品的话语权。

search.chatgpt.com 的网页存档 目前该网站无法打开 | 图片来源:X 用户 Tibor Blaho

为什么这么说?

它们的产品里,要搜索,首先要选模型,两到三个模型,还要选是否使用图像搜索等等,我觉得复杂度比谷歌还高。我一个做技术的人,我看没有问题,但很多用户一定是用不明白的。

所以总的来说,我认为 AI 搜索的形态仍然有非常大的进化空间,但具体怎么变,说实话我也很难预测。

OpenAI 也没有带来太多产品形态方面的惊喜,最多就是这个 GPTs,但我觉得在国内的人看来,比起我们熟悉的微信小程序什么的,看起来也还是挺落后的。

02.

AI 搜索好在哪?从设计原理上解决幻觉问题

极客公园:AI 搜索相对于传统搜索引擎有哪些区别,有哪些优势?

方汉:传统的搜索引擎是通过爬虫,把互联网上所有的网页都抓取回来,然后经过清洗跟排序,最后在用户打出查询词的时候,搜索引擎按照自己的逻辑,对网页进行排序,给到用户。整个过程,用户需要自己选点那个网页,点开之后也要自主去看。

而 AI 搜索,让用户省去了去点网页、选网页以及看网页的过程,你直接看到的,就是它对现有网页的一个总结结果,相当于一个搜索小秘书。

它最大的作用是什么呢?是降低了用户的搜索时间,以及提高准确性。

我们都使用过传统搜索引擎。要去打开网页看内容,看完了靠人脑去总结,耗时其实是蛮长的,基本上都要几分钟,但现在大模型替你做这个事情,它可以在几秒钟之内就可以给你一个总结,基本上天工搜索的用户基本上都会反映它极大地提高了大家的工作效率,甚至它一些总结,包括脑图 PPT 你可以直接用。

天工 AI 搜索的增强模式(共有简洁、增强、研究三个模式)| 图片来源:截图

在传统搜索引擎中,最早谷歌搜索引擎除了搜索按钮以外,还有另外一个按钮 I feel lucky,点一下就直接进入第一个搜索结果,实际上是传统搜索引擎降低交付的走成本的一个尝试。本质上我们现在所有的 AI 搜索就是 I feel lucky 那个按钮所起到的作用,只不过我们做的比他们要好得多。

另外就是准确性。AI 搜索解决了大模型的幻觉问题。大家一开始用 ChatGPT,其实很多人是把它当搜索引擎用的,但实际上它是会经常一本正经的胡说八道。AI 搜索通过 RAG 这些技术,先找到事实,12345,限制大模型根据以上事实来回答问题,能极大地抑制甚至彻底消除大模型的幻觉。

极客公园:用户愿意信任 AI 搜索吗?AI 搜索是不是只是一小波用户的需求,而不是一个大众需求?

方汉:我认为 AI 搜索首先是没有幻觉问题的,因为从技术原理上来说,它是先搜索再总结,然后再通过智能体去处理。在这个流程过程中,我们从源头杜绝了这个欺诈的问题。

同时传统搜索引擎,要列出更多网页,需要保证这所有网页都不是欺诈网页。而我们只需要把这些网页里面我们认为最可靠的三个,互相交叉验证之后最可靠的三个的内容进行总结,展现在网页上给用户去看,那么一定是可靠性是增强了的。

我们都有能力鉴别一个网页是不是欺诈,但并不是所有用户都这样。我们的父母辈,他们真的是没有能力鉴别这一点的。天工搜索有合规小模型,反欺诈模型来筛选网页,也会从 prompt 端优化让模型输出多数网页认可的价值,那鉴别能力低的用户用 AI 搜索,效果一定是正向的。

我们这些很熟悉技术的人,自己很熟悉传统搜索,能够主动地去合适的网站找到合适的内容,所以有时候觉得一部分需求好像 AI 搜索满足不了。但我们不要忘记,AI 搜索从出现到现在也就一年多的时间,随着时间的推移,我认为 AI 搜索在体验、准确性等问题上都会远远超过搜索引擎。

我们的用户数据里看到,天工搜索的用户的粘度是非常高的,非常信任我们。为什么?因为他们会看我们给出的索引。

比如说体制内的人用我们的搜索帮助写公文,他会发现我们索引,引用的都是官方媒体的,他用了几次之后就会非常信任我们,所以我认为,信任会随着时间的推移而逐渐增强。

天工 AI 搜索的研究模式(共有简洁、深入和研究三个模式)|图片来源:截图

至于用户群体,我刚才也提一下,new Bing 出现后,Bing 搜索引擎的市场份额只有小幅增加。那是因为它当时的智能体的技术不成熟。

用户上来就是搜一首歌、搜个电视剧、看个八卦什么的,我认为这部分需求用智能体一定是可以解决得非常好的。

有了智能体的技术,用户更多的长尾需求可以得到满足,那么我认为用户量的增长是指日可待的。

我完整的经历了中国搜索引擎的发展过程。当初百度搜索在那个北大燕园资源楼办公的时候,我还去参观过。其实最早用搜索引擎的人,也全是像我们这样的一些技术极客,但慢慢的它就会泛化到全人群。我认为 AI 搜索也是这样。

现在使用我们 AI 搜索的主要用户应该还是白领用户以及技术极客居多。随着时间推移,AI 搜索也一定会逐渐被更多样的人群使用。

03.

AI 搜索的商业前景:成本低于5美分就能盈利

极客公园:传统的搜索引擎,用户免费使用而 B 端投放广告,形成了成熟的商业模式。AI 搜索中,用户直接得到搜索结果,会不会改变商业模式?能够盈利吗?

方汉:上个时代的搜索成本,它首先有个固定开销,就是你的爬虫集群的开销,这个爬虫集群,如果索引全球的网页的话,那基本上在 3, 000 台服务器到 1 万台服务器之间,这是个固定开销。

另外一部分成本就是做 page rank(网页排名),这个服务器规模是更为庞大的,且是动态开销。你的用户越多,你这个集群就需要越大。

在这两个开销之外,还有人员成本。

所有这些都加起来之后,谷歌每年搜索引擎查询次数是 3.3 万亿次,单次搜索的成本是 0.2 美分。然后整个谷歌搜索广告的收入是 1, 500 亿美金左右,去年可能是 1, 600 亿差不多,可以算出来差不多一次搜索产生的收入是 5 美分左右。

然后再跟大家说一个数字,OpenAI 早期的成本,注意不是现在的成本,早期的成本,一次对话的成本是 36 美分,就是你可以看到这里面有几个数字差,36 美分、 5 美分、 0.2 美分。可以看出来,推理成本,是 AI 搜索商业模式中非常关键的因素。

我再跟大家分享另外一个数据,文生图有一个开源模型,叫 Stable Diffusion。我记得非常清楚,在 2022 年的时候我开始使用它,当时一张 4090 的卡平均是跑 3 分钟出一张图。今天我用 4090 还是同一张卡,我一秒钟能出 100 张图。可以看出,推理的优化速度非常快。我认为跟摩尔定律是有点像的,推理成本的下降速度跟摩尔定律是一样的,非常快。

甚至未来,端侧推理变得足够成熟之后,在端侧去做这件事情,几乎不存在推理成本了。我认为 AI 搜索商业模式应该很快就可以打正,这只是一个时间问题。

在商业模式上来说,最基础的 AI 搜索的商业模式,一定是靠广告信息流,那么这个商业模式也是非常成熟的。实际上国内的单个搜索,能够收到的钱比国外高很多,但基本上也是在 5 美分或者是几十美分这种量级,我们认为这个东西短期内也不会有太大的变化,所以我们也在一直优化,一定要把我们的推理成本打到 5 美分以下,整个商业模式才会成立。

我认为这个现在也不是特别难的事,这一天迟早会到来。

我们还会做智能体,智能体实际上属于 VIP 服务了,还可以收到更高的费用。

极客公园:AI 搜索是创业者的好机会吗?

方汉:首先我认为 AI 搜索不是创业者一个好的方向。很简单,AI 搜索,如果你要想做到成本最低,你一定要自建搜索引擎索引库,这个成本是非常高的,我不觉得一个小创业者能解决这个问题。

我们公司做这个事情是因为我们原来在海外做 Opera News 这个新闻推荐产品的时候,从 16 年开始就自建了一个比较小的一个搜索引擎,我们当时每天大概索引 5, 000 万个新闻网站,我们整个 AI 搜索的引擎团队是一脉相承的,也就是说我们做这个搜索引擎的集群已经做了有七八年了。

索引库实际上就是爬虫集群和存储集群。比如有做个人站的,你能看到的个人站上,有几个网站带着 bot 的标志来爬虫你的个人站了,你就知道有哪几个公司是有自己的爬虫集群的。

这一块其实是一个比较大的成本,因为如果你没有的话,你就得去买第三方的服务,比如调用 Google 的或者是 Bing 的索引库,给他们钱。那基本上,购买第三方服务就可以把你所有的利润都吃完了。谷歌自己的成本是 0.2 美分,那你觉得它会卖你多少钱它觉得合适?

这个成本远比你的推理成本要高,而且推理成本在迅速地下降。

看未来的话,AI 搜索最后可能不会取代市场上的老大,但它有可能把市场上的老二老三给挤下来。

即使现在有谷歌搜索,其实同时仍然还有很多的搜索引擎。垂类的搜索引擎活得很好,比如 DuckDuckGo。我认为这种引擎反而是未来受到威胁最大的。

另外我反复强调智能体,你的智能体如果能够满足一部分垂类用户的需要,那你这个 AI 搜索就能够长期存在,而这些特定领域,搜索巨头未必能覆盖的到。举个例子,搜论文,谷歌做了一个学术搜索,但是在中国有知网,然后在海外还是有 Arxiv,垂类领域我们认为 AI 搜索通过智能体的赋能空间还是非常大的。

天工 AI 的智能体广场 | 图片来源:截图

极客公园:未来搜索这个形态本身,还有搜索的市场格局,会发生变化吗?

方汉:一个比较少被讨论的点是,在现在的搜索格局下,谷歌和百度这两个搜索巨头,都在自建内容闭环。谷歌给 Wikipedia 捐了很多钱,20% 的流量落在 Wikipedia 上。百度有百度百科、问答等等。

大模型可能会完全颠覆内容闭环这件事。Wikipedia、百科都需要人工编辑,只要需要人工编辑,维护成本就非常高,而目前看到,大模型是有机会自己去生成 Wikipedia 的。我觉得下一段时间 AI 搜索都会聚焦的一个方向,是内容生成。

包括我们看到,微软的新模型,是使用 GPT-4 生成的教科书来训练的。大模型现在已经可以生成教科书了,虽然这个教科书用来训练模型,我们实际看到其实效果不太好,但仍然可以侧面说明,我们离生成合成数据越来越近了。

传统意义上的搜索,它只是一个很长一段时间最适合我们获取信息的一种方式。然后随着大模型的进步,随着 AI 的进步,我们认为我们有能力给用户提供更方便、更直接的这样一个体验。只要你能够让用户真正的省时间,真正的能提高准确性,变方便,那么你的使用率自然会上升,你的留存自然会变好。

大家都现在都在卷模型的指标。以后当技术进步放缓的时候,我认为产品就会介入。现在这一波 AI 创业中,产品的话语权是远远低于技术的,我认为这个情况是不太正常的,长期来看一定是改变世界的是产品。

2023 年搜索引擎市场份额 |图片来源 YouTube Data Wrap

未来的搜索市场份额,我认为新产品一定是能拿到的。谷歌这样的大公司,沉没成本太高了,行动速度一定是比新产品慢的。但是能不能守住这个市场份额,以及能不能颠覆这个市场,是不一定的。

●昆仑万维23年收入49亿净利润13亿,研发费用增长40%,坚定All in AGI与AIGC ●中国首个音乐SOTA模型「天工音乐大模型」今日公测 ●「天工大模型3.0」4月17日正式发布——同步开源4000亿参数MoE超级模型,性能超Grok1.0 ●「天工2.0」MoE大模型发布 ●昆仑万维开源「天工」Skywork-13B系列大模型,0门槛商用●用大模型重塑搜索 昆仑万维发布国内第一款AI搜索产品