Google把Gemini塞进搜索框:3个地方赢了ChatGPT,1个地方输得很明显
本文最后更新于 2026-05-21,文章内容可能已经过时。
Google把Gemini塞进搜索框:3个地方赢了ChatGPT,1个地方输得很明显
上周我在Google搜索框里打了一句话:"帮我分析一下最近新能源汽车降价潮背后的供应链逻辑。"
以前这种问题,我会直接打开ChatGPT。但这次我想试试Google的新东西——AI Mode。
结果让我有点意外。不是"惊艳",也不是"失望",而是一种更微妙的感受:这个东西和我以为的不一样,但也没到我期待的那种程度。
Google Search的AI Mode,正在悄悄改变一件事:你以为它只是在搜索框上面贴了个AI对话框,但实际上,它在用搜索引擎的方式,重新定义什么叫"AI搜索"。
这篇文章的结论先给你:3个地方,Google真的赢了ChatGPT搜索;但有1个核心短板,让它还差那口气。
---
先搞清楚:我说的是哪个东西?
很多人对Google AI Mode的印象还停在"搜索结果上方多了个AI总结框"——那是旧版的AI Overviews,不是同一个东西。
AI Mode是一个独立的搜索模式,入口在Google搜索结果页顶部的标签栏(部分地区需要在Search Labs手动开启)。点进去之后,整个页面的逻辑变了:- 左侧主区域变成AI对话界面,支持多轮追问
- 右侧保留传统搜索结果的"来源引用"面板,每条引用都可以点击跳转
- 底部有追问输入框,保留对话上下文
- 地图、购物、本地服务等结构化数据会直接嵌入AI回答中
和传统搜索页面的核心区别在于:信息的呈现逻辑从"给你链接,你自己去读"变成了"我给你答案,你可以去验证"。
这里有一个关键定性,是后面所有对比的基础:
Google AI Mode是"有搜索能力的AI",不是"有AI能力的搜索"。 这两句话看起来差不多,但产品逻辑完全相反——前者以AI为主体,搜索是工具;后者以搜索为主体,AI是增强。
理解了这个区别,你才能理解它为什么在某些场景下碾压ChatGPT,又在某些场景下掉速明显。
---
3个地方,Google真的赢了
差异点①:实时性+来源可溯——ChatGPT的老伤口
我做了一个简单的测试,问题是:"特斯拉Model Y在中国的最新官方指导价是多少,最近有没有调整?"
Google AI Mode的回答在十几秒内给出,并且在回答末尾附上了3个可点击的来源链接,分别指向特斯拉官网、汽车之家和36Kr的近期报道。我逐一点开验证,数据基本准确,且报道时间都在近一周内。
ChatGPT搜索(开启了联网功能)给出的回答在措辞上更流畅,但来源引用只有1个,点开是一篇发布于几个月前的评测文章,价格数据已经过时。
这不是偶然。ChatGPT搜索的信息检索机制和Google的爬虫生态存在根本差距——Google本来就是互联网最大的索引器,AI Mode调用的是它自己的实时索引,时效性和来源可溯性是结构性优势,不是靠优化能追平的。
对于需要引用来源做决策的场景(比如研究报告、价格比对、政策查询),这个差距很实际。
---
差异点②:多轮追问时的"上下文锚定"更稳
这个测试稍微复杂一点。我设计了一个三轮追问链:
1. 第一轮:"帮我比较一下Notion和Obsidian,哪个更适合个人知识管理?"
2. 第二轮:"那Notion的缺点具体体现在哪些使用场景下?"
3. 第三轮:"有没有同时具备两者优点的替代方案?"
Google AI Mode在三轮追问过程中,始终保持着对"个人知识管理"这个原始语境的绑定。第三轮给出的替代方案(如Logseq、Capacitor)都是在这个框架下推荐的,没有跑偏。
ChatGPT搜索在第二轮之后开始有点"漂"——它的回答越来越像一个纯对话AI在发表观点,而不是在帮你搜索信息。到第三轮时,它的回答里出现了一些没有来源支撑的"我认为"式表述,脱离了搜索语境。
原因不难理解:Google AI Mode的产品设计里有一条隐形约束——每一轮回答都必须有可检索的来源支撑,这个约束反而成了"上下文锚定"的稳定器。ChatGPT搜索没有这条约束,所以在多轮对话后更容易滑向"纯生成"模式。---
差异点③:结构化信息整合——本地/购物场景碾压
这是Google AI Mode最让我意外的地方,也是它和ChatGPT搜索差距最大的场景。
测试问题:"北京朝阳区附近,周末营业,人均200-300元,评分4.5以上的日料餐厅,帮我推荐几家。"
Google AI Mode的回答直接整合了Google Maps的数据:餐厅名称、地址、当前评分、营业时间、人均消费——全部在一个回答里呈现,还有一个小地图卡片可以展开查看位置。
ChatGPT搜索的回答……给了我几个餐厅名字,但没有实时评分,没有确认营业时间,点击来源跳转到的是大众点评的搜索结果页,需要我自己再去筛选。
这不是ChatGPT的错,这是生态问题。Google Maps、Google Shopping、Google Business Profile这些结构化数据库,是Google二十年积累的护城河,AI Mode可以直接调用。 ChatGPT搜索没有这个基础设施,只能靠爬取公开网页来拼凑信息,信息碎片化是必然结果。
本地生活、购物决策、出行规划——这三个场景,Google AI Mode的体验领先不止一个身位。
---
差那口气的地方:1个核心短板
说完了赢的地方,该说输的地方了。
我给两个平台出了同一道题:"帮我分析一份SaaS创业公司的商业计划书,找出其中的逻辑漏洞。"(我提供了一段虚构的商业计划书摘要作为输入)
ChatGPT的回答是真正的"分析":它识别出了计划书里的客户获取成本假设过于乐观、竞争壁垒描述模糊、财务预测缺乏敏感性分析等问题,每个问题都有具体的推理链条。
Google AI Mode的回答……更像是一篇"关于如何审查商业计划书的文章摘要"。它告诉我应该关注哪些维度,给出了一个分析框架,但没有真正对我提供的内容做深度推理。
这是Google AI Mode最明显的短板:当你需要的不是"找答案",而是"想问题"时,它还是输的。背后的原因我认为有两层:
第一层是模型层面:Gemini 2.5 Flash是Flash系列,定位本来就是速度优先、推理深度适中,在复杂推理任务上不是它的强项。 第二层是产品逻辑层面:Google AI Mode的整个设计哲学是"检索优先"——它的第一反应是去找相关内容,而不是自己推理。这个约束在信息查询场景下是优势(来源可溯),在深度分析场景下就成了枷锁。用一句话总结这个短板:Google AI Mode是一个极好的"信息入口",但它不是"思考伙伴"。
---
怎么选:给不同用户的使用建议
不绕弯子,直接给结论:
| 使用场景 | 推荐工具 | 理由 | | 查实时信息(价格/政策/新闻) | Google AI Mode | 实时索引+来源可溯 | | 本地生活(餐厅/出行/购物) | Google AI Mode | Maps等结构化数据直接整合 | | 需要引用来源的研究任务 | Google AI Mode | 每条引用可点击验证 | | 深度分析/复杂推理 | ChatGPT / Claude | 推理深度和创作性任务的强项 | | 代码编写/调试 | ChatGPT / Claude | 专业代码能力差距明显 | | 长文写作/内容创作 | ChatGPT / Claude | 生成质量和风格控制更强 | | 多轮对话式思考 | ChatGPT / Claude | 不受"检索优先"逻辑约束 | 日常混用策略:用Google AI Mode做"信息入口"——查资料、找来源、了解现状;用ChatGPT或Claude做"思考伙伴"——分析问题、产出内容、深度推理。两者不是替代关系,是分工关系。核心认知:这两个产品正在从不同方向逼近同一个终点,但现在还没到。Google从搜索出发,向AI靠拢;ChatGPT从AI出发,向搜索靠拢。谁先到终点?现在下结论还太早。
---
如果你想亲自动手测试Gemini 2.5 Flash或ChatGPT的API能力,做自己的对比实验,不想被各种账号限制和地区封锁卡住——可以试试 [api.884819.xyz](https://api.884819.xyz),统一接口接入主流大模型,新用户注册即送体验token,国产模型(Deepseek、通义千问等)完全免费,没有月租。省去反复注册的麻烦,直接跑你自己的测试用例。
---
最后说一句
这次测试让我改变了一个习惯:查信息、找来源、做本地决策,我现在会先开Google AI Mode。 但只要涉及"我需要它帮我想清楚一件事",我还是会回到ChatGPT或Claude。
现在下结论说谁赢了还太早。但你现在的使用习惯,可能需要做一个小调整了——不是非此即彼,而是学会在两个工具之间切换。
---
顺带一提,这次测试过程中我发现了一个更有意思的现象:当Google AI Mode和ChatGPT搜索给出截然不同的答案时,哪个更接近"真相"?
我专门设计了一组验证实验,用可以查证的事实题来测试两者的准确率——结果有点出乎意料,而且有一个工具的"错误方式"比另一个更危险。
下篇写。
---
本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。#AI搜索 #Google AI Mode #ChatGPT #Gemini #AI工具对比 #8848AI #人工智能 #搜索引擎