AI解开60年数学悬案:那个研究者是怎么问问题的?
AI解开60年数学悬案:那个研究者是怎么问问题的?
2024年,一个让数学圈震动的消息悄悄流传:困扰数学家超过60年的Erdős差异问题相关猜想,研究者借助AI完成了关键推进。
不过我猜你和我一样,看完这条新闻的第一反应不是"AI真强"——而是另一个问题:
那个研究者到底是怎么问AI的?这才是真正值钱的信息。
---
一、一道让数学家卡了60年的题
先简单说一下背景,不展开太多技术细节。
Erdős(厄多斯)是20世纪最多产的数学家之一,一生提出了无数猜想,其中很多至今悬而未决。他有一个习惯:对于自己认为重要但暂时无法证明的命题,会标注一个"奖金"——从25美元到10000美元不等,代表他对这道题难度的判断。
近年来,随着大模型推理能力的提升,多个团队开始尝试将AI引入数学研究的前沿工作。DeepMind的AlphaProof、FunSearch等项目已有据可查地在组合数学和算法问题上取得了实质性进展——这些是真实发生的事,有论文和媒体报道为证。
但我今天想聊的不是"AI有多强"。
强不强,不是你能控制的变量。你能控制的,是你怎么问。
---
二、为什么你用AI解复杂问题总是失败?
我见过太多人用AI的姿势是这样的:
把问题往对话框一扔,等AI给答案。
如果答案不对,换个说法再扔一次。
如果还不对,得出结论:"AI就这水平,没用。"
这个逻辑有一个根本性的错误:它假设复杂问题和简单问题的解法是一样的,只是规模更大。
但实际上,复杂问题有四个让AI"短路"的特征:
- 信息密度高:问题本身包含大量隐含条件,一句话描述会丢失关键细节
- 边界模糊:你自己都不确定"解决"意味着什么
- 需要多步推理:每一步的输出是下一步的输入,错误会累积
- 缺乏即时反馈:你无法在中途判断AI是在真正推进,还是在"表演思考"
这四个特征叠加在一起,导致一个结果:AI给你的答案,是它认为你想要的答案,而不是你真正需要的答案。
解决这个问题,不需要等更强的模型——你需要的是结构化的对话设计。
---
三、3个可以直接复用的提问结构
结构一:问题解构框架
核心逻辑: 在让AI"解题"之前,先让它帮你把大问题切成小问题。大多数人跳过了这一步,直接要答案。但问题没切碎,AI就会在一个模糊的大框架里打转,给你一个听起来完整、实际上没有落点的回答。
中文模板:请将以下问题分解为可独立验证的子问题,并标注每个子问题的前置依赖关系。
分解时请注意:
1. 每个子问题应当可以单独验证真假
2. 标注哪些子问题必须先解决,才能进入下一个
3. 指出哪些子问题目前缺乏足够信息
问题:[你的问题]
英文版:
Please decompose the following problem into independently verifiable sub-questions,
and annotate the prerequisite dependencies between them.
Requirements:
1. Each sub-question should be verifiable on its own
2. Mark which sub-questions must be resolved before proceeding
3. Identify which sub-questions currently lack sufficient information
Problem: [your problem]
适用场景: 研究选题、商业决策、技术方案设计、任何你感觉"不知道从哪下手"的问题。
在AI辅助数学研究中的对应逻辑: 研究者不会把整个猜想扔给AI,而是先把它拆成"验证某个特殊情形"→"找反例"→"归纳规律"这样的子任务序列,每个子任务都可以单独跑验证。
---
结构二:假设-反驳循环
核心逻辑: 让AI同时扮演提案人和批评者。这是我认为三个结构里最反直觉、也最有效的一个。
AI有一个众所周知的倾向:它会顺着你的思路说话。你觉得A方案好,它会帮你论证A方案好。你觉得B方案好,它会帮你论证B方案好。这不是AI在撒谎,这是它的训练目标决定的——它被优化成"让用户满意",而不是"说出真相"。
打破这个倾向的方法,是在一个Prompt里强制要求它产生内部张力。
中文模板:针对以下问题,请分三步回答:
第一步:给出你认为最可能成立的解法或判断(提案人视角)
第二步:以最强的反驳者身份,指出第一步中最致命的漏洞——不要客气,要找真正能推翻它的论据
第三步:综合以上两步,给出修正后的方案,并明确说明你放弃了第一步中的哪些假设
问题:[你的问题]
英文版:
For the following problem, please respond in three steps:
Step 1: Present what you consider the most likely solution or judgment (proposer perspective)
Step 2: As the strongest possible critic, identify the most fatal flaws in Step 1 —
be ruthless, find arguments that genuinely undermine it
Step 3: Synthesize both steps into a revised solution, explicitly stating which
assumptions from Step 1 you've abandoned
Problem: [your problem]
适用场景: 长期卡壳的难题、需要避免思维定势的决策、任何你担心自己"想当然"的判断。
⚠️ 失败案例提示: 如果你只是问"这个方案有什么缺点",AI大概率会给你一个"礼貌性批评"——挑几个无关痛痒的小问题,然后说"总体来说这个方案是可行的"。这是表演式反驳,没有价值。必须用"以最强反驳者身份"这样的角色锁定,才能激活真正的批判性输出。
---
结构三:边界压力测试
核心逻辑: 用极端条件逼出隐藏假设。这个结构来自数学和工程领域的一个经典思路:一个结论在极端情况下是否还成立,往往比它在正常情况下成立更有信息量。
当你把某个条件推到极端(最大、最小、为零、为无穷),结论如果崩溃了,说明你之前默认了某个从未明说的假设——而这个假设,才是问题的真正核心。
中文模板:针对以下问题/方案,请进行边界压力测试:
1. 如果将条件[X]改为极端值(最大值/最小值/为零/趋向无穷),结论会如何变化?
2. 如果将条件[Y]改为与现实完全相反的情况,结论是否还成立?
3. 通过以上测试,列出我们默认成立但实际上未经验证的假设
问题/方案:[你的内容]
关键条件:[列出你认为重要的变量]
英文版:
Please conduct a boundary stress test on the following problem/solution:
1. If condition [X] is changed to an extreme value (maximum/minimum/zero/infinity),
how does the conclusion change?
2. If condition [Y] is reversed to the opposite of reality, does the conclusion still hold?
3. Based on the above tests, list the assumptions we've taken for granted
but haven't actually verified
Problem/Solution: [your content]
Key conditions: [list the variables you consider important]
适用场景: 数学和逻辑推理、产品设计、风险分析、任何"我觉得这个方案应该没问题"的时刻。
---
四、实战演示:用3个结构解一道"普通人的复杂难题"
理论说完了,来看一个真实场景的串联使用。
场景: 某公司连续3年增长停滞,管理层找不到根本原因。---
第一轮:用「问题解构框架」切碎问题请将以下问题分解为可独立验证的子问题,并标注前置依赖关系:
问题:某消费品公司连续3年营收增长率低于5%,但行业平均增速为12%。
管理层认为可能是产品、渠道、团队、外部环境四个方向之一出了问题,
但无法确定根本原因。
AI会给出类似这样的分解:
- 子问题A:公司市场份额是否在下降?(可通过行业数据独立验证)
- 子问题B:如果份额下降,是新客户获取减少,还是老客户流失加速?
- 子问题C:竞争对手在同期做了什么不同的事?
- 子问题D:公司的单位经济模型(单客户利润)是否也在恶化?
注意:子问题B依赖A先有结论。这个依赖关系,是你下一步行动的优先级排序。
---
第二轮:对最可能的假设用「假设-反驳循环」假设子问题A的答案是"市场份额确实在下降",你继续:
针对"市场份额下降的根本原因是渠道问题"这个假设,请分三步分析:
第一步:支持这个假设的最强论据
第二步:以最强反驳者身份,指出这个假设最致命的漏洞
第三步:综合给出修正判断
AI的第二步可能会指出:"如果是渠道问题,那么竞争对手使用相同渠道的产品应该也在下降——但如果竞品在同渠道增长,说明问题不在渠道,而在产品本身。"
这一句话,可能就是你们开会讨论了三个月都没想到的切入点。
---
第三轮:用「边界压力测试」验证结论假设结论是"产品力下降导致增长停滞",请进行边界压力测试:
1. 如果把产品价格降低50%,增长会恢复吗?这个测试能说明什么?
2. 如果进入一个全新市场(没有历史用户),产品还能卖出去吗?
3. 通过以上测试,我们默认了哪些未经验证的假设?
这一步往往会暴露出一个隐藏假设:"我们认为用户在意的功能,可能根本不是他们真正在意的。"
---
五、使用建议与边界说明
这3个结构不适合的场景
| 结构 | 适合 | 不适合 | | 问题解构框架 | 研究、决策、技术方案 | 简单查询、创意头脑风暴 | | 假设-反驳循环 | 卡壳难题、重要决策 | 已有明确答案的事实问题 | | 边界压力测试 | 逻辑推理、风险分析 | 情感类问题、开放性创作 |模型选择建议
这3个结构对模型的推理能力要求比较高。
用能力较弱的模型跑第二个结构,大概率会得到一个"假装在反驳"的表演式回答——它会挑几个无关痛痒的问题,然后说"总体来说你的方案是可行的"。这不是反驳,这是安慰。
如果你想真正跑通这套方法,建议直接上 GPT-5.4 Pro 或 Claude Opus 4.6 这类旗舰模型——推理深度和批判性思维都明显更强。
官方渠道的订阅价格不低,很多读者在用 [api.884819.xyz](https://api.884819.xyz) ——同款模型,按量计费,没有月租,国产模型(Deepseek/千问等)完全免费,适合高强度实验期的用法。新用户注册即送体验token,注册只需用户名+密码,直接能用。
---
写在最后
你现在脑子里有没有一个卡了很久的问题?
不一定是数学难题。可能是一个做了很久还没做出来的决策,一个反复讨论却找不到根因的业务问题,一个你隐约觉得"哪里不对"但说不清楚的判断。
这3个结构,今天就可以拿去试。
不需要等更强的AI,不需要学更多理论。复杂问题的突破,90%发生在你把问题问清楚的那一刻——而不是AI回答的那一刻。
---
下一篇我打算写一个更反直觉的话题:
>
「为什么有时候把AI的回答变差,反而能帮你想得更清楚?」
>
这涉及到一个叫"降质激活"的提问策略——故意让AI给出一个粗糙的错误答案,然后用你的纠错过程来逼出自己真正的判断标准。
>
听起来很奇怪,但这是目前处理模糊需求最有效的方法之一。
>
下周见。
---
本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。#AI教程 #Prompt技巧 #ChatGPT #Claude #深度思考 #8848AI #AI学习 #结构化提问