本文最后更新于 2026-06-04，文章内容可能已经过时。

你以为在和 AI 聊天，其实是在和概率系统协作：Ethan Mollick 拆解 LLM 的三个误解

很多人用不好 LLM，不是因为模型不够强，而是因为一开始就把它想错了。

你以为自己在和一个“会思考的专家”聊天，实际上更接近于：和一个高能力、但不稳定、且高度依赖上下文的生成系统协作。这个认知偏差，决定了你会怎么提问、怎么验收、以及最关键的——你会把它信到什么程度。

这也是为什么 Ethan Mollick 一再强调：普通人对 LLM 的运作方式，往往没有准确理解。Mollick 的价值不在于“他又发明了一个新模型”，而在于他总能把一个听起来很玄的东西，翻译成工作和生活里真正会踩的坑。

这篇文章想解决的，不是“LLM 能不能用”，而是“你为什么总把它用偏了”。

---

一、先别急着问技术，先问一个更现实的问题：你到底把它当成了什么？

Mollick 的提醒其实很直白：很多人和 LLM 的互动方式，像极了和一个人聊天——默认它懂你的背景、记得你的目标、会自我纠错、还能保持稳定判断。

但 LLM 不是人。它没有真正的理解、动机和责任感；它做的是基于上下文，预测下一个最可能出现的词。这句话听起来像技术术语，落到使用层面却很重要：它能把答案说得很像“人话”，但“像”不等于“是”。

这也是为什么同一个问题，换个问法、换段上下文、换个角色设定，输出可能完全变样。你如果把它当“稳定的专家”，就会在最该谨慎的地方放松警惕。

---

二、误解一：LLM 像人一样真正理解问题

这是最常见，也最危险的误解。

很多人看到模型说得顺、说得全、说得像模像样，就下意识把它的流畅表达理解成“理解能力”。问题在于，流畅 ≠ 理解，像专家 ≠ 真有专家式判断。

为什么我们会误判？

因为人类天生会把“会说话”当成“会思考”的证据。尤其是当 LLM 能迅速给出结构清晰、术语齐全的回答时，我们很容易产生一种错觉：它已经读懂了问题，甚至比我更懂。

但现实里，它可能只是“拼接得很好”。

一个简单例子

你问它：“帮我分析一下这个产品为什么卖不动。”

如果你不给任何背景，它可能会给你一版非常完整的市场分析：价格、渠道、竞品、用户心智、传播策略，样样都能讲。

可一旦你补充一句：“这个产品其实是给老年用户的，主渠道不是电商而是线下门店”，它的分析方向可能立刻变化。不是因为它“突然开窍”，而是因为它之前只是根据常见模式在生成答案。

现实案例已经说明问题

法律领域最典型。此前有律师用 ChatGPT 辅助写材料，结果引用了根本不存在的判例。看起来格式标准、措辞专业，但内容是错的。

这类事故最可怕的地方就在于：它不是那种“一眼假的错”，而是很像真的错。

这就是 LLM 最危险的地方：它能把“没想清楚”包装成“已经想明白”。

---

三、误解二：只要模型够大，就一定更可靠

这是第二层误解，也是很多用户升级模型后的心理陷阱。

人们很自然会觉得：模型越强，回答就越准；参数越大，错误就越少。这个直觉不能说完全错，但它忽略了一个事实：LLM 的错误，往往不是不会答，而是答得非常像对的。

LLM 的“错”，不是传统意义上的不会

它常见的问题不是空白，而是：

幻觉：编造不存在的事实、论文、政策、来源
偷换概念：把不同语境下的同一个词混在一起
过度自信：明明不确定，语气却像百分之百正确
局部正确：前半段都对，最后一段突然跑偏

这也是为什么把 LLM 当“搜索引擎”或“知识库”会出问题。搜索引擎的任务是帮你找资料；知识库的任务是存放已核实信息；而 LLM 的任务不是“存真”，而是“生成”。

四种角色，别混为一谈

如果你把这四者混成一个东西，误判就会非常快。

另一个真实案例：客服机器人说错了，责任并不会自动消失

此前 Air Canada 的聊天机器人给出过错误退票信息，最后引发争议。这个案例告诉我们：“系统说的”不等于“事实就成立”。

对普通用户来说，这意味着什么？意味着你不能因为它回答得像官方口径，就默认它说的是真的。

---

四、误解三：只要提示词够细，模型就会稳定听话

这是最容易让人“上头”的误解。

很多人学了几条 prompt 技巧后，会进入一种“只要我写得足够细，它就能完全按我想的来”的状态。实际使用一段时间后，才会发现：提示词确实重要，但它不是万能钥匙。

提示词能改善输出，但不能消灭不确定性

你可以通过提示词明确：

角色
任务
步骤
输出格式
约束条件
不确定性标注
反例排除

这些都会让输出更稳定。但问题在于，任务本身如果需要判断、查证、拆解，光靠一句“写得详细一点”是不够的。

错误提问 vs 正确提问

错误提问：

帮我写一份靠谱的市场分析。

这个问题的问题在于：

“靠谱”太抽象，范围太大，数据来源不明，结论标准不清。模型只能尽量填满，而不是准确完成。

正确提问：

请按以下结构输出：

1. 先说明你基于哪些假设；

2. 列出你需要核实的 5 个关键问题；

3. 给出一个初步市场判断；

4. 标注哪些结论是高置信度，哪些是推测；

5. 最后给出我可以进一步验证的资料清单。

你会发现，后者不是“更长”，而是更可验收。

真正高效的方式，不是神级 prompt，而是工作流

更有效的思路是把任务拆成四步：

1. 定义角色：你希望它扮演分析师、编辑、总结员，还是头脑风暴伙伴

2. 拆分步骤：先列框架，再展开内容

3. 设定验收标准：什么叫合格，什么要重写

4. 要求标注不确定性：哪些是推测，哪些是事实，哪些需要核查

这比“写一个神奇 prompt”更接近真实工作。

---

五、三大误解对照表：你到底踩在哪一层？

如果只选一个最该纠正的误解，我会选第一个：把 LLM 当成稳定可信的专家/理解者。

因为这个误解会连锁引发三件事：

你会问错问题；
你会降低验收标准；
你会把不该交给它的判断权，交出去。

最后的结果通常不是效率提升，而是错误被放大。

---

六、一个简单示意图：理解 LLM 到底在做什么

flowchart LR
A[你的问题] --> B[上下文窗口]
B --> C[模型基于概率生成下一个词]
C --> D[输出文本]
D --> E[你核查、修正、追问]
E --> B

这张图其实已经说清楚了：

LLM 不是“自动给答案的机器”，而是一个不断根据上下文生成文本的系统。你越把它当成需要校验的协作者，越能发挥它的优势。

---

七、那普通人到底该怎么用？

我的建议很简单：

把它当成加速器，不要当成裁判
把它当成起草者，不要当成终稿作者
把它当成思维陪练，不要当成事实来源
把高风险任务拆出去核查：法律、医疗、财务、政策、合同，尤其如此

如果你是产品经理、运营、开发者，最值得做的不是“让模型一次性给出完美答案”，而是把它接进一个可验证的流程里：先生成，再筛选，再核对，再定稿。

如果你是普通用户，也可以先从一个非常朴素的习惯开始：

每次让 LLM 输出内容时，都顺手加一句——“请标明哪些是事实，哪些是推测，哪些需要我再核实。”

这个小动作，往往比十条 prompt 技巧更有用。

---

八、把认知升级变成实操，才是这件事真正的价值

如果你想把上面这套方法真正用起来，可以去 8848AI 里试试不同模型和参数的实际表现。注册只需要用户名和密码，不需要邮箱验证；新用户注册即送体验 token，平台内置 AI 对话功能，注册后就能直接用。国产模型免费，整体是按量付费，没有月租和订阅。你完全可以拿同一个任务，在不同模型、不同提示词、不同 temperature 下跑几次，亲眼看见：LLM 不是一个“标准答案机器”，而是一套需要被正确编排的能力组件。

而这恰恰是很多人还没真正开始理解的地方：不是“它能不能答”，而是“它在什么条件下，答得更稳、更准、更可控”。

下一篇，我们就继续往下拆一个更实战的问题：为什么同样的提示词，换一个模型，答案风格和可靠性会差这么多？

本文由8848AI原创，转载请注明出处。

#AI教程 #LLM #EthanMollick #人工智能 #Prompt技巧 #8848AI #AI学习 #科技博客

---

想直接用上文提到的模型？[8848AI](https://api.884819.xyz) 按量付费，新用户注册即送体验 token，国产模型（DeepSeek/千问等）完全免费，无月租。