你以为在和 AI 聊天,其实是在和概率系统协作:Ethan Mollick 拆解 LLM 的三个误解
你以为在和 AI 聊天,其实是在和概率系统协作:Ethan Mollick 拆解 LLM 的三个误解
很多人用不好 LLM,不是因为模型不够强,而是因为一开始就把它想错了。
你以为自己在和一个“会思考的专家”聊天,实际上更接近于:和一个高能力、但不稳定、且高度依赖上下文的生成系统协作。这个认知偏差,决定了你会怎么提问、怎么验收、以及最关键的——你会把它信到什么程度。
这也是为什么 Ethan Mollick 一再强调:普通人对 LLM 的运作方式,往往没有准确理解。Mollick 的价值不在于“他又发明了一个新模型”,而在于他总能把一个听起来很玄的东西,翻译成工作和生活里真正会踩的坑。
这篇文章想解决的,不是“LLM 能不能用”,而是“你为什么总把它用偏了”。
---
一、先别急着问技术,先问一个更现实的问题:你到底把它当成了什么?
Mollick 的提醒其实很直白:很多人和 LLM 的互动方式,像极了和一个人聊天——默认它懂你的背景、记得你的目标、会自我纠错、还能保持稳定判断。
但 LLM 不是人。它没有真正的理解、动机和责任感;它做的是基于上下文,预测下一个最可能出现的词。这句话听起来像技术术语,落到使用层面却很重要:它能把答案说得很像“人话”,但“像”不等于“是”。
这也是为什么同一个问题,换个问法、换段上下文、换个角色设定,输出可能完全变样。你如果把它当“稳定的专家”,就会在最该谨慎的地方放松警惕。
---
二、误解一:LLM 像人一样真正理解问题
这是最常见,也最危险的误解。
很多人看到模型说得顺、说得全、说得像模像样,就下意识把它的流畅表达理解成“理解能力”。问题在于,流畅 ≠ 理解,像专家 ≠ 真有专家式判断。
为什么我们会误判?
因为人类天生会把“会说话”当成“会思考”的证据。尤其是当 LLM 能迅速给出结构清晰、术语齐全的回答时,我们很容易产生一种错觉:它已经读懂了问题,甚至比我更懂。
但现实里,它可能只是“拼接得很好”。
一个简单例子
你问它:“帮我分析一下这个产品为什么卖不动。”
如果你不给任何背景,它可能会给你一版非常完整的市场分析:价格、渠道、竞品、用户心智、传播策略,样样都能讲。
可一旦你补充一句:“这个产品其实是给老年用户的,主渠道不是电商而是线下门店”,它的分析方向可能立刻变化。不是因为它“突然开窍”,而是因为它之前只是根据常见模式在生成答案。
现实案例已经说明问题
法律领域最典型。此前有律师用 ChatGPT 辅助写材料,结果引用了根本不存在的判例。看起来格式标准、措辞专业,但内容是错的。
这类事故最可怕的地方就在于:它不是那种“一眼假的错”,而是很像真的错。
这就是 LLM 最危险的地方:它能把“没想清楚”包装成“已经想明白”。
---
三、误解二:只要模型够大,就一定更可靠
这是第二层误解,也是很多用户升级模型后的心理陷阱。
人们很自然会觉得:模型越强,回答就越准;参数越大,错误就越少。这个直觉不能说完全错,但它忽略了一个事实:LLM 的错误,往往不是不会答,而是答得非常像对的。
LLM 的“错”,不是传统意义上的不会
它常见的问题不是空白,而是:
- 幻觉:编造不存在的事实、论文、政策、来源
- 偷换概念:把不同语境下的同一个词混在一起
- 过度自信:明明不确定,语气却像百分之百正确
- 局部正确:前半段都对,最后一段突然跑偏
这也是为什么把 LLM 当“搜索引擎”或“知识库”会出问题。搜索引擎的任务是帮你找资料;知识库的任务是存放已核实信息;而 LLM 的任务不是“存真”,而是“生成”。
四种角色,别混为一谈
| 角色 | 它擅长什么 | 它不擅长什么 | 适合你怎么用 | | 搜索引擎 | 找信息入口 | 替你判断真假 | 找来源 | | 知识库 | 存放结构化知识 | 即时推理 | 做检索 | | 论文助手 | 辅助梳理逻辑 | 替你核验引用 | 写提纲、改结构 | | LLM 聊天机器人 | 生成流畅文本 | 保证每句话都真实 | 先产出,再核查 |如果你把这四者混成一个东西,误判就会非常快。
另一个真实案例:客服机器人说错了,责任并不会自动消失
此前 Air Canada 的聊天机器人给出过错误退票信息,最后引发争议。这个案例告诉我们:“系统说的”不等于“事实就成立”。
对普通用户来说,这意味着什么?意味着你不能因为它回答得像官方口径,就默认它说的是真的。
---
四、误解三:只要提示词够细,模型就会稳定听话
这是最容易让人“上头”的误解。
很多人学了几条 prompt 技巧后,会进入一种“只要我写得足够细,它就能完全按我想的来”的状态。实际使用一段时间后,才会发现:提示词确实重要,但它不是万能钥匙。
提示词能改善输出,但不能消灭不确定性
你可以通过提示词明确:
- 角色
- 任务
- 步骤
- 输出格式
- 约束条件
- 不确定性标注
- 反例排除
这些都会让输出更稳定。但问题在于,任务本身如果需要判断、查证、拆解,光靠一句“写得详细一点”是不够的。
错误提问 vs 正确提问
错误提问:帮我写一份靠谱的市场分析。
这个问题的问题在于:
“靠谱”太抽象,范围太大,数据来源不明,结论标准不清。模型只能尽量填满,而不是准确完成。
正确提问:请按以下结构输出:
1. 先说明你基于哪些假设;
2. 列出你需要核实的 5 个关键问题;
3. 给出一个初步市场判断;
4. 标注哪些结论是高置信度,哪些是推测;
5. 最后给出我可以进一步验证的资料清单。
你会发现,后者不是“更长”,而是更可验收。
真正高效的方式,不是神级 prompt,而是工作流
更有效的思路是把任务拆成四步:
1. 定义角色:你希望它扮演分析师、编辑、总结员,还是头脑风暴伙伴
2. 拆分步骤:先列框架,再展开内容
3. 设定验收标准:什么叫合格,什么要重写
4. 要求标注不确定性:哪些是推测,哪些是事实,哪些需要核查
这比“写一个神奇 prompt”更接近真实工作。
---
五、三大误解对照表:你到底踩在哪一层?
| 误解是什么 | 普通人为什么会这么想 | 实际上 LLM 怎么运作 | 对实际使用的影响 | 正确使用方式 | | 像人一样真正理解问题 | 它说得太像人了 | 基于上下文生成最可能的文本 | 容易过度信任 | 把它当协作者,不当判断者 | | 只要模型够大就更可靠 | 强模型通常更流畅 | 流畅不等于真实,仍会幻觉 | 容易忽略核查 | 先产出,再验证 | | 提示词足够详细就能稳定听话 | 提示词教程很容易上手 | 提示词只能改善概率分布,不能消除不确定性 | 误以为 prompt 是万能钥匙 | 用工作流替代“神咒思维” |如果只选一个最该纠正的误解,我会选第一个:把 LLM 当成稳定可信的专家/理解者。
因为这个误解会连锁引发三件事:
- 你会问错问题;
- 你会降低验收标准;
- 你会把不该交给它的判断权,交出去。
最后的结果通常不是效率提升,而是错误被放大。
---
六、一个简单示意图:理解 LLM 到底在做什么
flowchart LR
A[你的问题] --> B[上下文窗口]
B --> C[模型基于概率生成下一个词]
C --> D[输出文本]
D --> E[你核查、修正、追问]
E --> B
这张图其实已经说清楚了:
LLM 不是“自动给答案的机器”,而是一个不断根据上下文生成文本的系统。你越把它当成需要校验的协作者,越能发挥它的优势。
---
七、那普通人到底该怎么用?
我的建议很简单:
- 把它当成加速器,不要当成裁判
- 把它当成起草者,不要当成终稿作者
- 把它当成思维陪练,不要当成事实来源
- 把高风险任务拆出去核查:法律、医疗、财务、政策、合同,尤其如此
如果你是产品经理、运营、开发者,最值得做的不是“让模型一次性给出完美答案”,而是把它接进一个可验证的流程里:先生成,再筛选,再核对,再定稿。
如果你是普通用户,也可以先从一个非常朴素的习惯开始:
每次让 LLM 输出内容时,都顺手加一句——“请标明哪些是事实,哪些是推测,哪些需要我再核实。”
这个小动作,往往比十条 prompt 技巧更有用。
---
八、把认知升级变成实操,才是这件事真正的价值
如果你想把上面这套方法真正用起来,可以去 8848AI 里试试不同模型和参数的实际表现。注册只需要用户名和密码,不需要邮箱验证;新用户注册即送体验 token,平台内置 AI 对话功能,注册后就能直接用。国产模型免费,整体是按量付费,没有月租和订阅。你完全可以拿同一个任务,在不同模型、不同提示词、不同 temperature 下跑几次,亲眼看见:LLM 不是一个“标准答案机器”,而是一套需要被正确编排的能力组件。
而这恰恰是很多人还没真正开始理解的地方:不是“它能不能答”,而是“它在什么条件下,答得更稳、更准、更可控”。
下一篇,我们就继续往下拆一个更实战的问题:为什么同样的提示词,换一个模型,答案风格和可靠性会差这么多?本文由8848AI原创,转载请注明出处。
#AI教程 #LLM #EthanMollick #人工智能 #Prompt技巧 #8848AI #AI学习 #科技博客
---
想直接用上文提到的模型?[8848AI](https://api.884819.xyz) 按量付费,新用户注册即送体验 token,国产模型(DeepSeek/千问等)完全免费,无月租。