你以为在和 AI 聊天,其实是在和概率系统协作:Ethan Mollick 拆解 LLM 的三个误解

很多人用不好 LLM,不是因为模型不够强,而是因为一开始就把它想错了。

你以为自己在和一个“会思考的专家”聊天,实际上更接近于:和一个高能力、但不稳定、且高度依赖上下文的生成系统协作。这个认知偏差,决定了你会怎么提问、怎么验收、以及最关键的——你会把它信到什么程度。

这也是为什么 Ethan Mollick 一再强调:普通人对 LLM 的运作方式,往往没有准确理解。Mollick 的价值不在于“他又发明了一个新模型”,而在于他总能把一个听起来很玄的东西,翻译成工作和生活里真正会踩的坑。

这篇文章想解决的,不是“LLM 能不能用”,而是“你为什么总把它用偏了”。

---

一、先别急着问技术,先问一个更现实的问题:你到底把它当成了什么?

Mollick 的提醒其实很直白:很多人和 LLM 的互动方式,像极了和一个人聊天——默认它懂你的背景、记得你的目标、会自我纠错、还能保持稳定判断。

但 LLM 不是人。它没有真正的理解、动机和责任感;它做的是基于上下文,预测下一个最可能出现的词。这句话听起来像技术术语,落到使用层面却很重要:它能把答案说得很像“人话”,但“像”不等于“是”。

这也是为什么同一个问题,换个问法、换段上下文、换个角色设定,输出可能完全变样。你如果把它当“稳定的专家”,就会在最该谨慎的地方放松警惕。

---

二、误解一:LLM 像人一样真正理解问题

这是最常见,也最危险的误解。

很多人看到模型说得顺、说得全、说得像模像样,就下意识把它的流畅表达理解成“理解能力”。问题在于,流畅 ≠ 理解,像专家 ≠ 真有专家式判断

为什么我们会误判?

因为人类天生会把“会说话”当成“会思考”的证据。尤其是当 LLM 能迅速给出结构清晰、术语齐全的回答时,我们很容易产生一种错觉:它已经读懂了问题,甚至比我更懂。

但现实里,它可能只是“拼接得很好”。

一个简单例子

你问它:“帮我分析一下这个产品为什么卖不动。”

如果你不给任何背景,它可能会给你一版非常完整的市场分析:价格、渠道、竞品、用户心智、传播策略,样样都能讲。

可一旦你补充一句:“这个产品其实是给老年用户的,主渠道不是电商而是线下门店”,它的分析方向可能立刻变化。不是因为它“突然开窍”,而是因为它之前只是根据常见模式在生成答案。

现实案例已经说明问题

法律领域最典型。此前有律师用 ChatGPT 辅助写材料,结果引用了根本不存在的判例。看起来格式标准、措辞专业,但内容是错的。

这类事故最可怕的地方就在于:它不是那种“一眼假的错”,而是很像真的错

这就是 LLM 最危险的地方:它能把“没想清楚”包装成“已经想明白”。

---

三、误解二:只要模型够大,就一定更可靠

这是第二层误解,也是很多用户升级模型后的心理陷阱。

人们很自然会觉得:模型越强,回答就越准;参数越大,错误就越少。这个直觉不能说完全错,但它忽略了一个事实:LLM 的错误,往往不是不会答,而是答得非常像对的。

LLM 的“错”,不是传统意义上的不会

它常见的问题不是空白,而是:

  • 幻觉:编造不存在的事实、论文、政策、来源
  • 偷换概念:把不同语境下的同一个词混在一起
  • 过度自信:明明不确定,语气却像百分之百正确
  • 局部正确:前半段都对,最后一段突然跑偏

这也是为什么把 LLM 当“搜索引擎”或“知识库”会出问题。搜索引擎的任务是帮你找资料;知识库的任务是存放已核实信息;而 LLM 的任务不是“存真”,而是“生成”。

四种角色,别混为一谈

| 角色 | 它擅长什么 | 它不擅长什么 | 适合你怎么用 | | 搜索引擎 | 找信息入口 | 替你判断真假 | 找来源 | | 知识库 | 存放结构化知识 | 即时推理 | 做检索 | | 论文助手 | 辅助梳理逻辑 | 替你核验引用 | 写提纲、改结构 | | LLM 聊天机器人 | 生成流畅文本 | 保证每句话都真实 | 先产出,再核查 |

如果你把这四者混成一个东西,误判就会非常快。

另一个真实案例:客服机器人说错了,责任并不会自动消失

此前 Air Canada 的聊天机器人给出过错误退票信息,最后引发争议。这个案例告诉我们:“系统说的”不等于“事实就成立”

对普通用户来说,这意味着什么?意味着你不能因为它回答得像官方口径,就默认它说的是真的。

---

四、误解三:只要提示词够细,模型就会稳定听话

这是最容易让人“上头”的误解。

很多人学了几条 prompt 技巧后,会进入一种“只要我写得足够细,它就能完全按我想的来”的状态。实际使用一段时间后,才会发现:提示词确实重要,但它不是万能钥匙。

提示词能改善输出,但不能消灭不确定性

你可以通过提示词明确:

  • 角色
  • 任务
  • 步骤
  • 输出格式
  • 约束条件
  • 不确定性标注
  • 反例排除

这些都会让输出更稳定。但问题在于,任务本身如果需要判断、查证、拆解,光靠一句“写得详细一点”是不够的

错误提问 vs 正确提问

错误提问:
帮我写一份靠谱的市场分析。

这个问题的问题在于:

“靠谱”太抽象,范围太大,数据来源不明,结论标准不清。模型只能尽量填满,而不是准确完成。

正确提问:
请按以下结构输出:
1. 先说明你基于哪些假设;
2. 列出你需要核实的 5 个关键问题;
3. 给出一个初步市场判断;
4. 标注哪些结论是高置信度,哪些是推测;
5. 最后给出我可以进一步验证的资料清单。

你会发现,后者不是“更长”,而是更可验收

真正高效的方式,不是神级 prompt,而是工作流

更有效的思路是把任务拆成四步:

1. 定义角色:你希望它扮演分析师、编辑、总结员,还是头脑风暴伙伴

2. 拆分步骤:先列框架,再展开内容

3. 设定验收标准:什么叫合格,什么要重写

4. 要求标注不确定性:哪些是推测,哪些是事实,哪些需要核查

这比“写一个神奇 prompt”更接近真实工作。

---

五、三大误解对照表:你到底踩在哪一层?

| 误解是什么 | 普通人为什么会这么想 | 实际上 LLM 怎么运作 | 对实际使用的影响 | 正确使用方式 | | 像人一样真正理解问题 | 它说得太像人了 | 基于上下文生成最可能的文本 | 容易过度信任 | 把它当协作者,不当判断者 | | 只要模型够大就更可靠 | 强模型通常更流畅 | 流畅不等于真实,仍会幻觉 | 容易忽略核查 | 先产出,再验证 | | 提示词足够详细就能稳定听话 | 提示词教程很容易上手 | 提示词只能改善概率分布,不能消除不确定性 | 误以为 prompt 是万能钥匙 | 用工作流替代“神咒思维” |

如果只选一个最该纠正的误解,我会选第一个:把 LLM 当成稳定可信的专家/理解者

因为这个误解会连锁引发三件事:

  • 你会问错问题;
  • 你会降低验收标准;
  • 你会把不该交给它的判断权,交出去。

最后的结果通常不是效率提升,而是错误被放大。

---

六、一个简单示意图:理解 LLM 到底在做什么

flowchart LR

A[你的问题] --> B[上下文窗口]

B --> C[模型基于概率生成下一个词]

C --> D[输出文本]

D --> E[你核查、修正、追问]

E --> B

这张图其实已经说清楚了:

LLM 不是“自动给答案的机器”,而是一个不断根据上下文生成文本的系统。你越把它当成需要校验的协作者,越能发挥它的优势。

---

七、那普通人到底该怎么用?

我的建议很简单:

  • 把它当成加速器,不要当成裁判
  • 把它当成起草者,不要当成终稿作者
  • 把它当成思维陪练,不要当成事实来源
  • 把高风险任务拆出去核查:法律、医疗、财务、政策、合同,尤其如此

如果你是产品经理、运营、开发者,最值得做的不是“让模型一次性给出完美答案”,而是把它接进一个可验证的流程里:先生成,再筛选,再核对,再定稿。

如果你是普通用户,也可以先从一个非常朴素的习惯开始:

每次让 LLM 输出内容时,都顺手加一句——“请标明哪些是事实,哪些是推测,哪些需要我再核实。”

这个小动作,往往比十条 prompt 技巧更有用。

---

八、把认知升级变成实操,才是这件事真正的价值

如果你想把上面这套方法真正用起来,可以去 8848AI 里试试不同模型和参数的实际表现。注册只需要用户名和密码,不需要邮箱验证;新用户注册即送体验 token,平台内置 AI 对话功能,注册后就能直接用。国产模型免费,整体是按量付费,没有月租和订阅。你完全可以拿同一个任务,在不同模型、不同提示词、不同 temperature 下跑几次,亲眼看见:LLM 不是一个“标准答案机器”,而是一套需要被正确编排的能力组件

而这恰恰是很多人还没真正开始理解的地方:不是“它能不能答”,而是“它在什么条件下,答得更稳、更准、更可控”。

下一篇,我们就继续往下拆一个更实战的问题:为什么同样的提示词,换一个模型,答案风格和可靠性会差这么多?
本文由8848AI原创,转载请注明出处。

#AI教程 #LLM #EthanMollick #人工智能 #Prompt技巧 #8848AI #AI学习 #科技博客

---

想直接用上文提到的模型?[8848AI](https://api.884819.xyz) 按量付费,新用户注册即送体验 token,国产模型(DeepSeek/千问等)完全免费,无月租。