两个10亿意味着AI要重塑搜索:
1.Perplexity截止4月,上线15个月访问超过10亿;
2.Google宣布年底要让AI Overviews覆盖10亿用户!
Google这个全球搜索巨头对于AI融合的坚决推进,证明了AI搜索是一个极强的非共识了,本文会沿着这个趋势去说几个“暴论”,这几个“暴论”是逐层递进的,构成了本文的主线,如果你有相关思考,也欢迎加我vx交流:lookforward
感谢360VP梁志辉毫无保留的分享,本文结合360AI搜索从传统搜索到AI搜索的尝试、总结和思考中获得了很多启发,我们也录制成了播客,欢迎收听,这里面蕴含有最前沿言的思考(360AI搜索国内4月增速棒第一背后对于流量用户产品技术和商业的思考):
Take Away:
- 用户搜索的目的从来都不是搜索本身
- 一次AI搜索背后会调用几次大模型?
- AI搜索不仅仅是提供答案,更是一个全方位的用户需求满足工具
- AI对于搜索范式的改变
- 创业公司干不了通用AI搜索,但可以…
01 用户搜索的目的从来都不是搜索本身
一个反常识的观点是:用户使用包括搜索在内的工具,仅仅是为了满足自己的需求。
当搜索发生了变化,用户的行为也随之发生改变,这一点我们可以通过360AI搜索来观察一下。为什么是他们呢?因为360之前就一直做搜索,现在又在全力做AI搜索!只有他们有最好的实践,又同时愿意开源出自己的思考!
2019年,360搜索里,42%的用户是寻址,21%在找各种资源,37%在提问题。
2024年,360AI搜索里,这个比例发生了很大的变化。寻址跌到了12%,找资源跌到了16%,剩下的72%在提问题!
其中整个大盘里12%的请求是写“帮我写一个xx文章”。
用户的行为发生了极大的变化,这里有三个Case可以拿来展开写:
第一. 因为AI搜索会直给答案,出现了一个按钮:复制
这是AI搜索便利性极大提升的细微呈现!对于小学生来说,要在键盘上完成Ctrl+C、Ctrl+V,其实相对难理解,操作也不容易,一键复制按钮的出现,就非常方便使用了,并且只有在AI搜索类,这个按钮是常驻的:
第二. 在教学上,可以用小学生能听得懂的例子去解释复杂的科学概念
比如什么是量子纠缠:
第三,对于内容可以非常方便的进行改写
(上图中文字底部有一个“对上文进行改写”的按钮):
特别是这个写的需求,是360自己过去的没有想到的。
在大盘里面,你会发现有几类人群是非常有意思的,他们会重度的使用AI搜索:
- 学生(作业、报告)
- 老师(教研)
- 学术研究者(论文)
- 职场人(汇报、研究)
- 公务员(公文写作)
特别是年轻的小学,中学用户,他们有很强的求知欲,他们对什么问题都希望问一遍。对于这样的用户,AI搜索能给到的体验是十倍于过去传统搜索的。
也是受到这一点的启发,老周准备做一个智能硬件,说让小朋友赢在起跑线,AI儿童手表。这个硬件的背后,也是会调用AI搜索的能力。
也就是说,用户搜索的目的并不是搜索本身,而是“雇佣”产品满足自己的需求,一旦搜索的外延扩大,用户的需求随之变化。
02 AI搜索生成高质量的答案并不简单
网上有很多开源的、套壳的AI搜索项目,一般人会认为只要去调用搜索的API,然后再用LLM基于Prompt做整理就行了,其实不然,这里面存在大量的工作,我们说几个360在实践的有意思的要点:
第一. 一次AI搜索,调用1次大模型?
错!答案是会调用9次大模型,并且不同任务里会有不同大模型参与。
比如:用户输入Query并点击搜索后,360会先调用一个2B-7B之间响应非常快的意图识别模型,快速理解Query,并做关键词识别、参数抽取、意图识别、搜索词改写等工作。
比如:接下来会进行5次搜索,搜索完后对内容进行ReRank重排序,这里面排序、选择哪些内容作为主答案,也需要LLM参与。
比如,基于生成的答案,要生成各种追问、延伸阅读、相关事件、思维导图,这里面360思维导图的效果之所以好,就是360专门去训练了一个模型,才能够把结构化的信息比较准确和有结构的描述出来。
比如“带40个集装箱出海,日本为何对鲸鱼再次下黑手?”里360AI搜索生成的脑图,非常结构化和逻辑清晰。
360AI搜索模型的主力是14B的小尺寸大模型,16K的上下文窗口,再叠加其他模型的配合(比如对于写作等高级任务会调用72B的大模型),才能完成一次AI搜索。
第二. 如何做好研究功能?
秘塔AI搜索有一个研究模式,能够生成非常长的答案:
当我们仔细阅读时,就会发现效果其实很差,我们拿一个case来举例:
“说说AI搜索和传统搜索的差异”
对应的搜索链接我放在文末的参考里面,大家可以自己感受。
很多内容其实和Query都关系不大,那为何会出现这样的情况呢?
因为小参数量模型*上下文窗口很短,所以只能讨巧:迭代调用,分批生成
什么意思呢?就是第一步先生成一个大纲,然后再基于大纲去做逐步的扩写,整体拼凑下来就能够得到很长的文章。
但是这里就会出现一些可能的内容重复,包括生产的质量很多时候不一定会太高等问题。360并没有跟风去做同样的功能,而在找更高质量的解法:
用中文搜一次、再用英文搜一次
比如研究型内容,比如AI信息,很多领域确实是英文环境下有更高质量的内容,用英文搜一次,把高质量内容翻译成中文再整合到答案内,确实可以大幅提高答案质量。
这个策略听起来很有意思:
巧妇难为无米之炊,信息源质量的高低,直接决定了最后答案质量的好坏。
第三. 做好搜索需要多少个Prompt?
这是一个很有意思的问题,360在这个问题上经历过一些变化。
最开始的时候他们是用一个Prompt打天下,希望有一个万能的Prompt能够解决世界上的所有问题,结果发现这个事情不可行。
我和之前很火的阅读摘要类产品创始人请教过,对于总结,他们确实可以用一个很短的Prompt(迭代了非常多的版本)获得很好的总结结果,但是AI搜索用户的意图有很多,并不单纯是内容总结。对于模型来说,对不同的搜索意图,想要生成好的结果,是需要传递给大模型不同的价值取向的。
今天,360AI搜索已经把query的意图识别分类做到了4000多种,每一种需求配对应的Prompt。工作做得已经相当精细了,但梁志辉告诉我,这仍然只是很粗颗粒度的匹配。
为何需要这么多Prompt呢?背后的原理,还是大模型的训练是集合了网上所有的信息,所以你需要告诉他,在解决不同问题的时候得用不同的思路,包括所谓的few shot、CoT等等,简单来说就是你要引导大模型,才能更好的完成不同的特定任务。
在很多的模型即应用型产品(几乎每个大模型公司都会出的助手类产品)里,对于这个问题的解法,是给海量的机器人,比如:
(上图从左到右是智谱清言、豆包、通义)
对于用户的选择来说是带来很大困扰的,不光是太多了,用户也完全不知道哪个Bot(背后对应着不同的Prompt)解决自己的问题更好。
简单留给用户,复杂留给自己:
360 AI搜索只给用户一个统一的输入框或者语音按钮,背后用多角色、多模型和多API组合来满足用户需求。
从这几点,我们能看出,AI搜索想要获得高质量的答案,其实并不简单。我们并没有囊括市面上所有的技术原理,尽管这样也已经可见一斑了!
AI搜索除了可以生成答案,AI搜索还可以干别的么?答案是显然的:
03 AI搜索不仅仅是提供答案,更是一个全方位的用户需求满足工具
第一. AI搜索可以处理复杂问题,大大增强用户需求的满足
我们先看一下Google的Demo:
假设你在搜索“找到波士顿最受欢迎的瑜伽或普拉提工作室,并显示其入门优惠和从Beacon Hill步行的时间”。多步推理的AI会:
- 识别出你要找的是瑜伽或普拉提工作室。
- 找到波士顿地区的相关工作室。
- 筛选出那些在当地受欢迎的工作室。
- 检查这些工作室是否提供新会员的入门优惠。
- 计算每个工作室从Beacon Hill步行的时间。
- 综合以上信息,给出一个详细的结果列表。
(注意,这个Case里,Google还整合了各种POI信息)
多步推理是指AI系统能够处理复杂问题时,进行多个逻辑步骤的推理和分析。简单来说,它不仅能根据输入的问题给出直接答案,还能通过一系列推理步骤,综合考虑多个因素和条件,提供更全面和精确的回答。
有了多步推理能力之后,用户可以一次性提出复杂问题,AI系统通过多步推理来处理和回答,而不需要用户进行多次搜索和整合信息。
第二. 可以为用户进行规划
比如,搜索“为一群人创建一个简单准备的三天餐食计划”:
对于计划的结果,也可以进行调整:
比如将晚餐换成素食菜肴,搜索将定制你的用餐计划。
这个能力有几个限制(略)
第三. 使用AI搜索来头脑风暴
当你寻找新点子时,找到灵感并考虑所有选项可能需要花费很多精力。不久,当你寻找点子时,搜索将使用生成式 AI 来与你一起头脑风暴,并创建一个由 AI 组织的结果页面,使探索变得更加容易。
一样,有限制(略)
第四. Take a video, get help from AI
也许你在旧货店买了一个唱片机,但打开时它没有工作,并且带针的金属部件意外地漂移。使用视频搜索可以节省你找到正确词语来描述这个问题的时间和麻烦,你将获得一个带有步骤和资源的 AI 概述来进行故障排除。
这个背后展示了多模态输入的能力,原来Google Lens的定义就是智能镜头,现在有了Gemini的多模态大模型加持后,直接可以读视频,很强!
那以上几点是Google在AI搜索上加持AI后的几点核心能力展示,我们可以看出,Google对于AI搜索的理解,已经和目前市面上主流的AI搜索不一样了,它把过去积累的实时搜索,地图,图搜,商品等整合到一起,从多个角度,用信息密度极高的信息呈现方式,聚合到用户面前!
AI搜索的外延依旧可以扩大,从已知维度来看,完全可以进化成全方位的用户需求满足工具!
04 AI对搜索的范式改变
相信看了前面的内容,你也会理解AI对于搜索产生了大量的改变,这一章节,我们尝试去总结,AI搜索到底出现了哪些很明确的范式改变呢?
在一开始,先看下搜索简史:
第一. 搜索的起源和统治
从Archie鼻祖到Altavista进化,最后是Google爆发(略)
一直到现在,Google大部分时间里占据着搜索市场的龙头地位:
当然,我们发现微软的New Bing发布后,Google搜索的市场份额开始出现明显下降!
那AI搜索到底带来了哪些颠覆式改变?先别急,我们再快速看一下几个有意思的AI搜索产品:
第二. 快速看几个有意思的AI搜索产品
以下(略)
Perplexity
360AI搜索
秘塔AI搜索
百小应
Monica.im
Google智能镜头
百度搜索整合Agent
Reportify
Arc Search
微软Copilot+PC
看完以上产品,我们来尝试做一个总结:
第三. AI对搜索产生的范式变迁
搜索之所以能成为全世界人民的重要工具,很大程度上有这么几点要素:
- 信息爆炸:海量的信息不再是黄页能够寻找的了
- 用户需求:遇到问题需要寻找答案和解决方案
- 广告市场:企业寻找用户,搜索引擎有钱赚,用户需要产品,三赢
- 技术进步:搜索结果更加精准和个性化,用户体验不断提升
- 移动互联网:随时可以搜索
这里面最重要的还是羊毛出在羊身上:用户有需求,搜索引擎能满足!
那AI给搜索带来了哪些范式变迁,使得本文开头的双10亿出现了呢?
1 用户行为范式的变化(略)
用户的行为会随着搜索能力边界的拓展而改变!
2 输入输出范式的改变(略)
输入变得更加丰富和自由…
输出也会更多元…
两者的边界同时在扩充…
3 信息与服务整合的范式(略)
输入输出范式的改变,也会蔓延到AI提供更深度的信息与服务整合…
4 商业范式的改变(略)
这一块有很大的想象空间,只要用户用得多,AI搜索有一万种更好变现的方法,比如…
还没完,我们继续:
05 创业公司干不了AI搜索?
为了更好讲清楚,我们从几个要点展开
第一. 索引库的成本就已经劝退了?!
我们都知道为了提高AI搜索的答案质量,需要构建高质量的索引库,这样实时搜索的网页结果,加上索引库才能让LLM整合出更好的答案。
但是索引库的成本往往被忽略了。
360算过一笔账,爬5000万的网页,大概需要一两百万RMB。并且对于通用搜索引擎,5000万这看似很多的网页其实也只是洒洒水,是的,这就是搜索带来的强大壁垒:
大模型来了以后,我们让“规则编程的蜘蛛”变成智能化爬虫。一方面现在越来越多的知识是以文档、视频、音频、直播等方式存在,通过AI来理解 这些内容,让搜索引擎对新一代的头部网站,如bilibili 、douyin的检索由浅(title、简介)入深(字幕、语音、画面)。另一方面我们通过大模型来指挥爬虫,可以更有效地将传统网页的正文提取和更准确、图片支持多目标识别等等。
除了抓取以外,我们目前还构建了一个100亿级别的多模态RAG索引库,新的索引库是专门为大模型而建的AI Native的索引库。我们把现在最新的RAG的一些技术思路,在这里实现了重构了我们的信息提取的技术方案。更难得的是我们在百亿级别的RAG数据库上实现了200ms的P95提取速度。比很多开源的方案快很多。
梁志辉分享了360在AI搜索上面的一些实践经验(P95的意思是95%的查询能够在200毫秒内完成信息检索)
所以我们会发现,Perplexity、秘塔AI搜索等新锐AI搜索,都是从某些垂类聚焦开始:
选择学术论文里去搜索,效果最好,但到了全网搜索,效果就会弱很多,并且仍然会经常出现幻觉。
这就是因为索引库的建立是一个花费时间和金钱的,创业公司 又不得不做的事情。先从冷启动的用户群体去切,可以降低索引库成本,也能保证用户的使用体验。
第二. 流量的不可持续性
我们知道360AI搜索在AI产品榜上,4月是国内增速榜第一,所以,流量从哪来?怎么看待买量这种行为呢?以及流量要成为流量,有效的方式是什么?逐一来看这几个问题:
1 流量从哪来?
- 外部冷启:周鸿祎的直播里口播介绍产品,有一部分流量。
- 内部资源:在2023年360财报里,显示公司PC浏览器及导航的平均日活跃用户数(DAU)近2亿,平均月活跃用户数(MAU)4.11亿,市场占有率86.85%+,浏览器市场持续排名第一。这里面就有大量的资源可以导流给360AI搜索来做冷启动。
除此之外,还有一个很有效的方式是AI SEO,这是360从海外创业者的操作中获得的启发:
过去很多用户的搜索问题是没答案的,所以国内诞生了百度知道,知乎,国外有Quora,Stackoverflow等,这种用人力组织的内容成本很高,特别是组织人去覆盖一个长尾的事情是很困难的。
我记得马蜂窝为了覆盖小众旅游场景就花了很长的时间,很多功夫。
现在有了AI,360每天会用晚上闲时调用GPU去预生成大量的答案,每到晚上,DashBoard上就能看到GPU使用率顶到100%。
这样,每天生成数百万个答案网页,就可以覆盖自己搜索内的流量:
过去没有好答案,流量只能导给质量一般的网页,
现在我生成答案,流量可以导给质量更好的自己。
2 流量的背后是留存!
过去360也做过买量的事,得到了一些思考:
- 网页产品很难获得留存(略)
- ChatBot品类很难有高留存(略)
所以,留存的背后是什么?
3 留存的背后是载体
能看到360对于AI搜索留存的核心是要找到一个载体,这个载体就是AI浏览器。
所以不管是PC上还是手机上,浏览器都是一个好App,它是一个很好的容器,里面可以装各种网页内容/服务等等。
我们之前写过360AI浏览器深度解析周鸿祎发布的两款AI产品 | 5000字,从那会到现在,它迭代了很多个版本,上线了海量的AI能力,比如我现在经常用它来看YouTube视频,因为可以免费做摘要总结不说,还能免费快速的完成字幕的翻译,帮我快速浏览和定位视频:
OK,我们小结一下:
对于流量,360是多管齐下,老周的网红导流、内部的资源倾斜、AI SEO、包括AI浏览器相关产品的研发和推广都是;
对于投放,360最为关心的是留存,并得出结论:单纯的ChatBot留存是不行的;
对于留存,解法是AI浏览器,整合更多的AI能力,全量满足用户需求。
从上面可以看出,360在AI搜索这个战场上想的和做的要比竞品更清楚一些,并且明显是更加持久的!短期或许不够明显,中长期看后续差异会逐渐凸显。
第三. 技不如人
360对于成本和用户需求,有一个挺巧妙的探索:本地大模型!
昆仑万维的方汉在一次直播上透露,Google搜索单次的成本在0.2美分,大约是0.15元,目前看AI搜索的成本要比它高出一个数量级,怎么降低AI搜索的成本很重要!
360在探索本地大模型的逻辑:
在360AI浏览器内,用户可以点击开启本地大模型,之后会先做硬件检测,在硬件能力足够的情况下会去下载一个几GB的7B或14B的大模型,今后你就可以直接在本地做大模型的运算了。
这个看起来是能节约360云端运算的成本,那用户什么情况下会打开本地大模型开关呢?
首先,有一些不太适合放到互联网去分析的,包括录音、商业文档等内容,可以实现断网下的AI处理。
其次,B端客户也可以很低成本的在本地用服务器完成私有化的一些工作。
这种既降低了云端AI算力成本,也满足了用户需求的能力,非常的巧妙。
这是大厂在技术上面的快速突破带来的新机遇,除此之外,答案整合很明显只是AI搜索的一小部分。
Google现在做的:
多步推理/规划/AI生成页面/视频搜索
背后吃的是很强的大模型能力,海量的实时索引库以及大量的自有服务(地图/Youtube/Gmail/Chrome/Google Lens等) (略)
当然,从舆论来说,Google现在也比较难,在海量用户面前,极小比例的错误也会被极致放大,这也是需要警惕的。
第四. 搜索即服务
用户的输入是起点,搜索会成为一个巨大的入口,过去只是做分发,有了AI加持之后,很可能巨头们会做得更加深入。
比如,交易撮合,把持了流量的搜索可以自由的在合作商内…(略)
暂无评论内容