AI vs 急诊医生:o1在真实急诊室里赢了?

想象一下,周末深夜,你突然高烧、关节剧痛、全身乏力,赶到急诊室。护士快速记录生命体征,医生匆忙问诊,但症状模糊,早期信息有限。传统分诊中,医生可能先想到常见感染,却错过潜在的系统性疾病,比如狼疮发作。

在最近的一项真实急诊场景测试中,OpenAI的o1推理模型面对相同有限信息,给出的初始分诊诊断准确率达到67.1%,而两位资深急诊医生分别为55.3%和50.0%。当信息逐渐丰富到入院阶段时,o1的准确率升至约82%,医生则在70-79%区间。更惊人的是,在治疗和管理计划建议上,o1达到了89%的准确率,而医生仅为34%。

这不是科幻电影,而是2026年4月30日发表在《Science》杂志上,由哈佛医学院和Beth Israel Deaconess医疗中心研究团队完成的研究成果。研究使用该医院76个真实急诊病例,在三个关键时间点(初始分诊、医生首次接触、入院时)对AI和人类医生进行盲评对比。盲审医生甚至无法有效区分哪些诊断来自AI,哪些来自人类。 [[1]](https://www.npr.org/2026/04/30/nx-s1-5804474/ai-doctors-openai-patient-care-diagnosis)

这篇研究并非在宣扬“AI即将取代医生”,而是提供了一个难得的客观窗口,让我们看清当前最先进的推理模型在高压力临床场景中的真实能力与边界。对于中国数亿AI用户和关注医疗科技的读者来说,这意味着:AI已经强大到足以作为可靠的“第二意见”和早期筛查工具,但它永远是辅助,而非替代。

o1到底强在哪里?核心数据拆解

研究团队设计了多组实验,包括NEJM经典复杂病例和真实急诊数据,全面评估o1的临床推理能力。

在76个真实急诊病例中,o1的表现尤为亮眼:

  • 初始分诊阶段(信息最少、最紧急):o1准确识别“确切或非常接近”诊断的比例为67.1%,显著高于两位专家医生的55.3%和50.0%。这一阶段的优势最明显,因为早期数据往往只有护士简短描述、基本生命体征和少量病史。
  • 后续阶段:随着更多检查结果和病史补充,o1准确率继续提升至入院时的约82%,而医生在70-79%区间,差距缩小但AI仍保持领先。
  • 管理计划准确率:o1建议的检查、治疗方案等管理计划准确率高达89%,医生则为34%。这显示o1在“下一步该做什么”上特别擅长。

研究还对比了o1与前代模型GPT-4o。在相同NEJM病例基准上,o1在包含正确诊断的鉴别诊断列表中表现更优,尤其在复杂罕见病例上。

另一个重要参照是NEJM的143个复杂临床病例(Clinicopathological Conferences,CPC)。o1将正确诊断纳入其鉴别诊断列表的比例达到78.3%,第一诊断正确的比例为52%。如果放宽到“非常接近或有帮助的诊断”,这一比例高达97.9%。相比早期对GPT-4的测试,o1有明显进步。 [[2]](https://www.science.org/doi/10.1126/science.adz4433)

为什么o1能在信息稀缺的早期阶段胜出?

关键在于它的“链式推理”(step-by-step reasoning)能力。o1不像传统模型那样直接输出答案,而是内部进行多步思考:先列出可能的原因,评估每种假设与现有证据的匹配度,排除不一致选项,再提出需要补充的检查。这类似于优秀医生在脑中快速构建的“鉴别诊断树”,但它能更系统、不带疲劳或认知偏差地完成。

举个研究中类似狼疮患者的模糊症状案例:患者可能主诉发热、皮疹、关节痛。普通医生在高压环境下可能优先考虑病毒感染或细菌性疾病,而o1会系统性地将系统性红斑狼疮(SLE)等自身免疫病纳入高优先级鉴别,并建议针对性检查(如ANA抗体、补体水平)。盲评时,评审医生认为AI的鉴别诊断逻辑清晰、覆盖面广。

为了直观对比,以下是简化表格(基于研究数据):

  • 初始分诊诊断准确率(确切或非常接近):
- o1:67.1%

- 医生A:55.3%

- 医生B:50.0%

  • 管理计划准确率
- o1:89%

- 医生:34%

  • NEJM复杂病例鉴别诊断包含正确诊断
- o1:78.3%(扩展后97.9%)

这些数据并非孤立。早期GPT-4在类似急诊或复杂病例测试中已显示潜力,但o1的推理训练让它在“思考过程”上更接近(甚至在某些文本数据驱动的任务中超越)人类专家的严谨性。

当然,研究也强调:盲审医生对AI和人类诊断的质量评分有中等一致性(κ=0.51左右),说明AI输出有时仍显“机械”,但整体已达到可比甚至更高的实用水平。

AI辅助诊断现在能碰哪一步、不能碰哪一步

能碰的领域:AI已经可以可靠介入

1. 早期分诊和筛查辅助:在信息有限时,o1能快速生成广泛的鉴别诊断列表,帮助医生不遗漏罕见但严重的可能性,减少认知偏差(如锚定效应)。

2. 生成鉴别诊断和推荐检查方案:特别适合复杂、模糊症状或罕见病病例。研究中o1在97.9%的扩展场景下提供了有帮助的诊断建议。

3. 第二意见工具:对于基层医生或农村医疗机构,这可能是巨大助力。中国急诊压力巨大,大三甲医院常常人满为患,基层医生面对疑难病例时,AI能快速提供参考,助力分级诊疗。

4. 减少人为误差:医生也会有疲劳、经验盲区或时间压力下的疏漏,AI作为始终在线、知识覆盖广的辅助,能提升整体安全性。

在中国语境下,这一点尤其有现实意义。国内很多地区医疗资源分布不均,基层医生日常处理大量常见病和多发病,遇到少见或交叉症状时容易犹豫。类似AI辅助工具的试点已在江苏等地推进,用于初诊支持和处方审核,帮助提升基层诊疗能力,缓解大医院拥堵。AI在这里不是“抢饭碗”,而是让医生有更多精力放在患者沟通和复杂决策上。

不能碰的红线:AI仍有清晰边界

尽管表现亮眼,研究作者和临床专家反复强调:AI绝不能独立决策。

  • 缺乏物理检查与实时多模态数据:AI目前主要依赖文本输入,无法直接感知患者气色、触诊肿块、听诊心肺音、观察步态或气味等关键体征。这些“非语言”信息在急诊中往往决定性。
  • 法律与伦理责任:诊断错误可能危及生命,最终责任必须由持证医生承担。AI幻觉(尽管o1已大幅减少)仍存在风险,尤其在罕见或新发疾病上。
  • 高度不确定场景:当患者信息矛盾、多病共存或涉及文化/心理因素时,AI的“统计模式匹配”可能不如有丰富临床经验的人类医生灵活。
  • 实际临床集成挑战:需要与电子病历系统深度融合、实时验证、持续监控偏差,还需大量前瞻性随机对照试验来证明在真实流程中的安全性与有效性。

哈佛研究团队成员、Beth Israel Deaconess的Adam Rodman医生明确表示,这些结果并不支持“把医生踢出循环”的做法。AI是强大工具,但临床判断、患者信任建立、最终决策仍依赖人类。Thomas Buckley等作者也呼吁,接下来需要更多真实世界部署试验,而非仅停留在回顾性分析。

从测试到现实:AI医疗的下一步与用户行动指南

这项《Science》研究标志着AI临床推理进入新阶段:从“能在考试中及格”到“在真实急诊早期场景中提供有竞争力的支持”。o1的链式推理展示了大型语言模型在结构化思考任务上的潜力,为未来多模态医疗AI(结合影像、语音、实时监测)奠定基础。

但落地仍任重道远。需要监管框架明确AI辅助的适用范围、医生培训如何与AI共存、数据隐私与偏见防控等问题。中国在AI医疗试点上已有积极探索,从基层分诊支持到虚拟模拟训练,未来有望结合本土海量临床数据,开发更贴合国情的辅助系统。

普通用户该如何安全使用AI辅助健康咨询?
  • 把AI当作“聪明助手”,而非最终权威。输入症状时,尽量提供详细、准确信息,并明确要求列出鉴别诊断和建议检查。
  • 任何AI输出都必须由专业医生验证,尤其是涉及用药或紧急情况时,绝不自行判断。
  • 适合场景:初步了解可能疾病、准备问医生的问题清单、追踪慢性病知识学习。
  • 进阶用户/开发者:可以尝试用o1级推理模型构建个人健康知识库或辅助工具,但需注意模型的文本局限性。

对于医疗机构和开发者,重点关注:如何将类似推理能力安全嵌入工作流、如何结合多模态数据提升准确性、如何建立人类-AI协作的闭环验证机制。

想亲手测试o1级别的强大推理能力,或直接调用类似前沿模型进行复杂问题求解?欢迎访问 api.884819.xyz,体验更智能、更实用的AI接口,支持快速集成到你的工作流或项目中——无论是健康咨询辅助开发,还是日常进阶使用,都能帮你领先一步。新用户注册即送体验token。

o1在急诊诊断上迈出了扎实一步,但AI在多模态医疗影像分析、实时手术辅助或个性化治疗方案生成上,又会交出怎样的答卷?下一篇文章,我们拆解另一项最新重磅研究,带你看AI如何进一步“看见”和“动手”——敬请期待。

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI医疗 #OpenAI o1 #急诊诊断 #临床推理 #AI辅助诊断 #Science杂志 #哈佛研究 #人工智能 #8848AI #AI在医疗