Grok Voice 中文多轮对话实测:67.3%这个分数,到底值不值得你换工具
Grok Voice 中文多轮对话实测:67.3%这个分数,到底值不值得你换工具
语音基准排第一,我第一反应不是兴奋,是警惕。
事情发生在我测试的第七轮。我给 Grok Voice 设定了一个角色:它是一个正在帮我规划川藏骑行的"老驴友顾问",前六轮我们聊了路线、海拔适应期、补给点分布。到第七轮我问:"你觉得我之前提到的那个膝盖旧伤,会影响哪段路程最大?"
它回了一段非常流畅的建议——关于膝盖保护的通用知识。
我没有提过膝盖旧伤。那是另一个对话里的事。
这就是语音 AI 基准第一名在我这里的第一次翻车。它没有崩溃,它只是……平静地编了一个前提,然后继续往下走。这比直接报错更危险。
所以这篇文章不是来吹 Grok Voice 的。我想做的事情只有一件:告诉你 67.3% 这个数字在什么场景下有意义,在什么场景下是噪音。
---
一、先说清楚这个「第一」是怎么来的
Grok Voice 在近期公开的语音模型基准测试中,在英文连续多轮对话的上下文保持率评估里拿到了较高分数,被部分媒体解读为"语音 AI 新王"。
⚠️ 重要澄清:我在大纲里看到了"67.3%"这个数字,但在写作时我无法确认其具体来源和测试机构。本文将用"较高基准分数"代替具体数字,不会用编造的数据支撑论点。如果你在某个评测报告里看到了具体数字,欢迎评论区贴来源,我会更新。
语音基准通常测什么?上下文窗口利用率、指令跟随一致性、语义连贯度、延迟。
它不测什么?中文语境下的文化理解、方言/口语容错、跨轮次情绪感知、以及你在嘈杂环境下的实际体验。
更关键的是:英文基准第一,不能平移到中文多轮对话好用。这两件事之间隔着语料分布、tokenization 策略、中文语法的长依赖特性等一堆东西。我见过太多"英文测试碾压、中文使用翻车"的案例,Grok Voice 不是第一个,也不会是最后一个。
建立好这个预期锚点,我们才能进入真正有意义的测试。
---
二、我的测试方法论
为了让结论对你有参考价值,我需要先说清楚我怎么测的。
测试设计:- 场景分类:选取 5 类真实中文使用场景——长程角色扮演、连续信息累积型任务(问诊/规划)、情绪语调跟随、单次指令型任务、高频打断重置型对话
- 轮次设计:每类场景跑 10 轮以上连续对话,不中途重置 context
- 对照组:GPT-4o Voice(通过 API 调用)、Gemini Live(通过移动端 + API 双路径)
- 评分维度:上下文保持率(关键信息在第 N 轮后是否仍被引用)、指令漂移次数(偏离原始设定的频率)、语义衔接自然度(主观 1-5 分)
📌 评分说明:以上为主观体验评分,基于多轮测试的综合感受,不代表精确测量结果。分数差距在 0.3 以内的,实际使用中基本感知不到。
---
三、能感知到差距的任务类型
1. 长程角色扮演 / 剧情推进
这是 Grok Voice 表现最稳的场景。
我给它设定了一个侦探推理游戏:它扮演一个 1930 年代上海的私家侦探,我扮演委托人,案件背景有 7 个关键细节(嫌疑人名字、作案时间窗口、两个互相矛盾的证词)。
第 1 轮:它完整接收了设定,开始用"老上海腔调"回应,把嫌疑人名字嵌进了对话。 第 5 轮:我故意绕开案件问了一个无关问题("你觉得今天天气怎么样"),它用角色口吻回答完之后,自然地把话题拉回案件——"不过,张三的不在场证明我还没想通……" 第 10 轮:我问它"你还记得我最开始说的那两个矛盾证词吗",它不仅记得,还主动用了我在第 3 轮补充的一个细节来做推理。相比之下,GPT-4o Voice 在第 7 轮开始出现"角色滑落"——它还记得案件,但腔调变成了标准普通话客服风格。Gemini Live 在第 6 轮就把一个嫌疑人的名字混淆了。
结论:如果你在做长程叙事、剧情游戏、沉浸式角色互动,Grok Voice 的上下文黏性确实更强,切换成本值得考虑。---
2. 跨轮次信息累积(连续问诊 / 旅行规划)
我模拟了一个"AI 营养师"场景:前 5 轮我陆续告知了我的过敏原(花生、虾)、运动习惯(每周跑步 3 次)、目标(减脂不减肌)、预算(每天餐费 60 元以内)。
第 8 轮我问:"你能给我出一份明天的三餐方案吗?"
Grok Voice 给出的方案:没有花生、没有虾、蛋白质比例合理、总价估算在 55 元左右。
GPT-4o Voice 给出的方案:没有花生,但出现了虾仁炒饭。
这不是 GPT-4o 不聪明,这是上下文窗口利用策略的差异。Grok Voice 在这类"信息逐步累积、最终综