Grok vs Gemini 中文能力实测:我做了20道题,结论比你想的复杂
Grok vs Gemini 中文能力实测:我做了20道题,结论比你想的复杂
你刷到过那条推文吗?
截图里,Grok用极其地道的网络用语回答问题,连"绷不住了""emo到极点"这类词都用得丝滑,评论区一片"Gemini可以退休了""谷歌中文组该裁员了"。我当时也心动了——毕竟Gemini的中文表现一直是个槽点,如果Grok真的全面超越,那确实是个大新闻。
但做了20道题之后,我想说:没这么简单。
---
为什么要做这个测试?
社交媒体上的"AI对比"有一个共同病:选择性截图。
发帖的人找一道Grok答得好、Gemini答得烂的题,截图一发,结论就成立了。这不是造假,但确实是片面的。真正的评测需要的是:相同的题目、相同的Prompt、系统化的分类、可复现的方法。
我花了两天时间设计了20道题,分成五个维度,用完全相同的Prompt分别喂给Grok(xAI最新版)和Gemini 3.1 Pro,记录结果,然后逐条核对那些流传最广的"Grok中文更强"论据。
结论先说:Grok在口语化场景有真实优势,但"全面更强"是严重过度解读。
---
测试设计:20道题,五个维度
测试题分为五类,每类4道:
| 类别 | 题目方向 | 难度定位 | | 日常口语理解 | 网络梗、缩写、语气词 | 中等 | | 古诗文/成语 | 释义、用典、文言翻译 | 较难 | | 逻辑推理(中文语境) | 中文文字游戏、歧义句 | 较难 | | 时事热点摘要 | 给定新闻段落,提炼要点 | 中等 | | 角色扮演与创意写作 | 模拟特定人物、风格写作 | 中等偏难 | 标准化Prompt模板(读者可自行复现):你是一个中文母语者,请用自然流畅的中文回答以下问题。
不需要解释你的推理过程,直接给出最终答案。
问题:[题目内容]
每道题两个模型用完全相同的Prompt,不加任何系统提示词,温度参数统一设为默认值。
---
逐类对比:剧情比你想的更曲折
第一类:日常口语理解(Grok 3:1 胜)
这是Grok表现最亮眼的一类。
测试题之一:"帮我用'整顿职场'的语气,回复一条催我加班的微信消息。"
Grok的回答直接到位,用了"不好意思哦""这个需求来得有点突然呢"配合一串看似礼貌实则暗藏锋芒的句式,读起来真的像一个职场老油条在发消息。
Gemini的回答则显得……像翻译腔。句子结构正确,但缺少那种"懂中国职场语境"的感觉,用的词都是标准普通话,没有网感。
另一道题测试"yyds、绷不住、破防"这类词的使用,Grok能在语境中自然嵌入,Gemini则会在后面加括号解释——这本身就说明它并不真的"懂"这些词,只是知道它们的意思。
小结:在口语化、网感强的场景,Grok的训练数据质量明显更高,这一点推文说的是真的。
---
第二类:古诗文/成语(Gemini 3:1 胜)
剧情在这里反转了。
测试题之一:"请解释'耄耋之年'的含义,并说明它在现代汉语中的使用场景。"
Grok的回答出现了明显错误——它把"耄耋"的年龄范围搞混了,给出的解释不够准确,而且举的例句有点生硬,像是从语料里硬拼出来的。
Gemini的回答则相当稳健:释义准确,例句自然,还额外补充了"耄耋"二字的字形来源,信息量更足。
另一道题要求用文言文改写一段现代新闻,Grok的输出里出现了几处文言语法错误,而Gemini的版本虽然不算惊艳,但基本功扎实,错误极少。
这个结果其实并不意外。古文和成语的训练需要大量高质量中文语料,Gemini在这方面的积累显然更系统。
小结:古诗文、成语、文言语境,Gemini更稳。如果你的工作涉及文史类内容,这个差距不可忽视。
---
第三类:逻辑推理(平手 2:2)
这一类是最有趣的,两个模型各有胜负,打成平手。
测试了一道经典的中文歧义句:"我看见你打他了"——这句话有几种解读?请全部列出。
Grok列出了3种,Gemini列出了4种,但Gemini多列的那种其实是牵强的解读。严格来说,这道题算Grok略胜,但差距不大。
另一道中文文字游戏题("什么动物早上四条腿,中午两条腿,晚上三条腿"的变体版本),两个模型都答对了,但Grok的解题过程更简洁,Gemini反而绕了一大圈。
小结:逻辑推理类题目两者差距不明显,选哪个都可以,具体看题目类型。
---
第四类:时事热点摘要(Gemini 2:2 平手,但质量问题不同)
这一类最让我意外——两个模型都出现了幻觉,但幻觉的类型不同。
给定一段国内科技新闻的原文,要求提炼三条核心要点。Grok的摘要更简洁,但有一条要点是它自己"补充"进去的,原文里根本没有。Gemini的摘要更保守,基本忠实原文,但语言干燥,缺乏提炼感。
这说明一个问题:不要无条件信任任何模型的摘要结果,尤其是涉及时效性强的内容。两个模型在这类任务上都需要人工核对。
小结:时事摘要场景,两者都有幻觉风险,Gemini更保守,Grok更流畅但可靠性略低。
---
第五类:角色扮演与创意写作(Grok 3:1 胜)
这是第二个Grok明显胜出的类别。
要求两个模型扮演"一个在北京胡同里开了三十年早餐摊的大爷",用第一人称讲述一个早晨的故事。
Grok的版本:有北京口音的语气词,有具体的细节("豆汁儿今天进的货不新鲜,我没敢卖"),有人物弧度,读起来真的像个真实的人在说话。
Gemini的版本:语言正确,但像是在写一篇命题作文,"我每天早上五点起床,开始准备食材……"——正确但无趣,缺乏那种"活人感"。
小结:创意写作、角色扮演、需要个性化语言风格的任务,Grok的输出更有灵气。
---
总比分与热推核实
五类测试最终比分: | 类别 | 胜者 | 比分 | | 日常口语理解 | Grok | 3:1 | | 古诗文/成语 | Gemini | 3:1 | | 逻辑推理 | 平手 | 2:2 | | 时事热点摘要 | 平手 | 2:2 | | 角色扮演/创意写作 | Grok | 3:1 | | 总计 | Grok微胜 | 13:11 |表面上看Grok以13:11微胜,但这个数字掩盖了一个重要信息:Grok胜出的场景高度集中在"口语化"和"创意性"任务,Gemini的护城河在"严肃内容"和"准确性"上。
回头看那些流传最广的推文,我逐条核对了三条:
- 推文A:Grok用网络梗回答问题——属实,但只能说明口语场景,不能外推到全场景。
- 推文B:Grok翻译古文比Gemini更准——这条我没能复现,我的测试结果恰恰相反。
- 推文C:Grok理解中文语气词更好——基本属实,这是它训练数据的真实优势。
结论很清楚:"Grok中文全面更强"是过度解读,但"Grok在特定场景有优势"是真实的。
---
实际使用建议:场景地图
把结论转化成你能直接用的行动指南:
优先选Grok的场景:- 写社交媒体文案、短视频脚本
- 需要网感、口语化的内容创作
- 角色扮演、故事写作、对话生成
- 需要"人味儿"而非"机器味儿"的输出
- 古文、成语、文史类内容处理
- 需要高准确性的长文摘要
- 正式文书、学术风格写作
- 对幻觉容忍度低的任务
如果你想自己复现这个测试,或者在日常工作中同时调用Grok和Gemini,不需要分别注册账号、管理多个API Key。我目前用的是 [api.884819.xyz](https://api.884819.xyz),一个入口可以统一调用两个模型,接口格式和OpenAI兼容,把下面脚本里的base_url换掉就能直接跑:
from openai import OpenAI
统一入口,同时测试两个模型
client = OpenAI(
api_key="your_api_key",
base_url="https://api.884819.xyz/v1"
)
models = {
"Grok": "grok-3",
"Gemini": "gemini-3.1-pro"
}
prompt = "你是一个中文母语者,请用自然流畅的中文回答以下问题。\n\n问题:用'整顿职场'的语气,回复一条催我加班的微信消息。"
results = {}
for name, model_id in models.items():
response = client.chat.completions.create(
model=model_id,
messages=[{"role": "user", "content": prompt}],
temperature=1.0
)
results[name] = response.choices[0].message.content
for name, result in results.items():
print(f"\n{'='20} {name} {'='20}")
print(result)
这个脚本约20行,可以直接替换题目内容批量跑测试。新用户注册即送体验token,国产模型(Deepseek/千问等)完全免费,没有月租,按量付费,适合用来做这类横向评测。
---
最后说一句
这个测试的结论有保质期。
Grok和Gemini都在快速迭代,我测试时的版本可能三个月后就不是最新的了。所以我不会说"Grok永远更适合口语场景"——我只能说,在我测试的这个时间点,这是我观察到的规律。
如果你用上面的Prompt模板自己跑一遍,发现结论和我不一样,欢迎来评论区打我脸。这才是可复现评测的意义:不是让你相信我,而是让你有工具自己验证。
---
📌 下一篇预告
这次测试让我发现了一个意外结论:在"让模型扮演特定角色"这类任务上,两个模型的差距比我预想的大得多——而且不是技术问题,更像是"价值观设定"的问题。
下篇我会专门拆解:
《为什么Grok愿意说Gemini不敢说的话?这背后是自由还是风险?》关注8848AI,更新时第一时间收到。
---
本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。#AI评测 #Grok #Gemini #中文能力测试 #AI工具对比 #8848AI #人工智能 #AI使用技巧