我把一部 2 小时纪录片扔给 AI,睡了个午觉,醒来桌上多了一份 8000 字笔记

周日下午两点,我把 BBC《人类星球》第一季的完整视频链接丢给 Qwen 3.5,然后去睡了个午觉。

醒来时,桌上多了一份结构完整、带时间轴标注的 8000 字笔记。

我盯着屏幕看了大概三秒,然后想:这他妈也行?

不是夸张。我做内容研究有几年了,手动给一部 2 小时纪录片做笔记,通常要花 3-4 个小时——边看边暂停、边回放、边整理,最后产出的东西还不一定有条理。而现在,一个模型帮我把这件事做完了,我只需要验证它做得对不对。

这篇文章就是验证过程的完整记录。结论先说:它还不完美,但它已经够用了。

---

为什么要用 AI 看纪录片?

先说真实动机,不是为了炫技。

BBC《人类星球》这类纪录片,信息密度极高——每集 50 分钟,涵盖地理、人类学、生存技术、文化习俗,旁白语速快,画面切换频繁,还夹杂着大量专有名词。

如果你是做内容研究、写作素材积累、或者单纯想把纪录片里的知识"留下来",手动做笔记的成本真的很高。更别说有些场景是:你只有半小时,但想快速掌握一部 2 小时纪录片的核心信息。

这就是我想测试的核心问题:长视频理解,到底靠不靠谱?

---

怎么喂进去?操作全流程

视频输入方式

Qwen 3.5 目前支持两种视频输入路径:

1. 直接上传视频文件(支持 mp4/mov 等主流格式,单文件上限约 2GB)

2. 输入视频链接(支持 YouTube、Bilibili 等主流平台)

本次测试使用的是 YouTube 链接输入方式,视频为《人类星球》第一季第一集,时长 58 分 42 秒,英语旁白,无字幕文件。

操作路径非常简单:

1. 打开对话界面,点击附件按钮

2. 选择"视频链接",粘贴 YouTube URL

3. 等待模型解析(本次耗时约 47 秒

4. 输入 Prompt,开始提问

⚠️ 注意:视频时长建议控制在 90 分钟以内,超长视频(2 小时+)在当前版本下会出现后段"记忆衰减"现象,这个问题在第四章会详细说。

---

Prompt 设计:颗粒度决定输出质量

这是整个工作流里最关键的变量。我测试了两版 Prompt,效果差异非常明显。

通用版(适合快速摘要):
请对这段视频进行完整分析,输出以下内容:

1. 核心主题概述(200字以内)

2. 按时间轴整理的关键事件/论点(每个节点标注时间戳)

3. 重要数据和事实(单独列出,带时间戳)

4. 值得记录的金句或旁白(原文引用)

5. 整体结构总结

输出格式:Markdown,使用二级标题区分各部分。

纪录片/学术专用版(适合深度研究):
你是一位专业的纪录片研究员,请对以下视频进行深度分析:

【基本信息】

  • 视频类型:纪录片
  • 分析目的:学术研究/内容创作素材积累

【请输出以下内容】

1. 叙事结构分析:导演如何组织内容?有哪些叙事策略?

2. 时间轴笔记(精确到分钟):

- 每5分钟为一个节点

- 标注:场景/地点、核心内容、关键数据、情绪基调

3. 事实核查清单:列出所有可验证的数据和声明

4. 文化/地理标注:涉及的地区、族群、习俗,附简要背景

5. 金句摘录:原文引用,标注时间戳

6. 研究延伸方向:基于视频内容,建议3-5个可深入研究的议题

输出语言:中文

输出格式:结构化Markdown,信息密度优先

实测结论:通用版输出约 2000-3000 字,纪录片专用版输出约 6000-8000 字。颗粒度越细,Prompt 对输出质量的提升越显著——这不是废话,而是我用 6 个不同版本测试后得出的结论。

---

它交出的"读书笔记"长什么样?

输出结果概览

本次使用纪录片专用版 Prompt,最终输出:

  • 总字数:7,840 字(中文)
  • 时间轴节点:12 个(每 5 分钟一个)
  • 金句摘录:9 条(含原文英语 + 中文翻译)
  • 可验证事实:23 条
  • 处理总耗时:视频解析 47 秒 + 生成输出约 2 分 15 秒

AI 笔记 vs 人工笔记:对比评分

| 维度 | AI 笔记 | 人工笔记 | 说明 | | 时间成本 | ~3 分钟 | ~3.5 小时 | AI 含解析+生成时间 | | 信息覆盖率 | 约 85% | 约 70% | 人工容易漏掉次要信息 | | 结构清晰度 | ★★★★★ | ★★★☆☆ | AI 强制结构化,人工笔记往往散乱 | | 准确性 | 约 87% | 约 95% | 见下方事实核查 | | 细节捕捉 | ★★★☆☆ | ★★★★☆ | 画面信息 AI 有遗漏 | | 主观理解 | ★★☆☆☆ | ★★★★★ | 人工笔记有个人解读,AI 偏客观平铺 |

事实核查:随机抽 10 条验证

我从 23 条可验证事实里随机抽了 10 条,逐一对照原视频和公开资料核查:

  • ✅ 正确:8 条(如"巴布亚新几内亚高地部落人口数据"、"撒哈拉沙漠昼夜温差数据"等)
  • ⚠️ 轻微偏差:1 条(某部落迁徙距离,AI 给出 200km,原视频说"超过 180km",方向正确但数字不精确)
  • ❌ 明显错误:1 条(将两个不同地区的生存技术混淆归属)
准确率:87%(10 条中 8.7 条可信)。对于一个没有接受过专业训练的"AI 笔记员"来说,这个成绩我给及格偏上。

最让我惊喜的输出

时间轴笔记的格式超出预期。以第 23-28 分钟节点为例,AI 输出了:

## 23:00 - 28:00 | 贝都因人的沙漠生存智慧

场景:撒哈拉沙漠,利比亚境内
核心内容
  • 贝都因游牧民族如何在极端高温(白天地表温度可达 70°C)下维持生计
  • 传统帐篷设计原理:黑色羊毛吸热加速内外空气对流,形成自然通风
关键数据
  • 昼夜温差:超过 40°C
  • 族群迁徙周期:约每 3-4 周移动一次营地
金句

"They don't fight the desert. They have learned to read it."

(他们不与沙漠对抗,他们学会了读懂它。)

延伸方向:传统建筑中的被动式降温技术

这个格式,直接复制进 Notion 就能用。

---

它在哪里翻车了?

诚实说,有几个地方踩了坑。

翻车案例 1:口音段落理解偏差

视频中有一段采访巴布亚新几内亚高地部落长老的片段,长老用皮钦语(Tok Pisin,一种英语混合语)讲述,旁白翻译为英语。

AI 的输出把旁白翻译和长老原话混淆了,导致有一段内容的信源归属错误——原本是"旁白解释"的内容,被标注成了"长老所说"。

时间戳对照:原视频 34:22-36:10,AI 输出对应段落。

规避方法:在 Prompt 里加一句 "请区分旁白解说与采访对象的直接发言,分别标注来源"

翻车案例 2:画面信息(图表/字幕)遗漏

纪录片里有几处使用屏幕字幕标注地名和数据(不是内嵌字幕,而是叠加在画面上的说明文字),AI 对这类信息的捕捉率很低——我统计了约 8 处屏幕文字,AI 只正确识别了 3 处。

原因:模型对视频帧的 OCR 能力在当前版本下仍有限制,尤其是字体较小、与背景对比度低的情况。

规避方法:对于图表密集型内容(如科普纪录片、财经视频),不要完全依赖 AI,建议人工补充关键画面数据。

翻车案例 3:超长段落的"记忆衰减"

这是最值得注意的问题。在测试第一季第三集(时长 58 分钟)时,我发现 AI 对前 30 分钟的内容描述明显比后 30 分钟更详细、更准确。

抽查对比:

  • 前段(0-30 分钟):10 个事实点,准确 9 个
  • 后段(30-58 分钟):10 个事实点,准确 7 个
结论:视频越长,后段质量越容易下滑。建议超过 45 分钟的视频,分段处理——把视频分成 30 分钟左右的片段,分别提问,再合并笔记。

---

值不值得用?我的最终判断

适合用的场景

  • 研究型观看:需要快速提取纪录片、课程视频、演讲的核心信息
  • 内容创作备料:写文章需要引用纪录片数据或金句,AI 帮你定位
  • 视频会议/课程复习:把录像喂进去,生成结构化会议纪要或学习笔记

不适合用的场景

  • 高精度事实核查:87% 准确率在学术场景不够用,必须人工复核
  • 图表密集型内容:财经数据、科学图表,画面信息遗漏率太高
  • 超过 90 分钟的长视频:后段记忆衰减明显,需要分段处理

与其他工具的横向对比(一句话版)

  • Gemini 3.1 Pro:长视频理解能力同级,但中文输出质量略逊,适合英文原生场景
  • 通义千问 Qwen3:文本理解强,视频理解是 Qwen 3.5 的专项能力,两者定位不同
  • NotebookLM:适合文档/PDF,视频支持有限,不是同一赛道

可落地的工作流建议

Step 1:视频预处理

└── 超过 45 分钟?→ 分段(每段 ≤30 分钟)

└── 图表密集?→ 准备手动补录关键数据

Step 2:Prompt 选择

└── 快速摘要 → 通用版 Prompt

└── 深度研究 → 纪录片专用版 Prompt

Step 3:输出验证

└── 随机抽查 3-5 个事实点,对照原视频

└── 重点核查采访引用的来源归属

Step 4:二次加工

└── 导入 Notion/飞书,按需重组结构

└── 用高亮标记"待核查"内容

---

结语:够用,就是最好的答案

做完这次测试,我的结论很务实:Qwen 3.5 的长视频理解能力,已经可以承担"初稿笔记员"的角色

它不能替代你的判断,不能完全信任它的每一条数据,但它能帮你把 3 小时的工作压缩到 30 分钟——剩下的时间,用来做只有人才能做的事:判断、筛选、赋予观点。

这对我来说,已经足够了。

---

想自己跑一遍这个工作流?

不需要排队申请内测,直接用 [api.884819.xyz](https://api.884819.xyz) 调 Qwen 3.5 的 API,按量计费,上面两个 Prompt 模板复制过去就能跑。

🎁 新用户注册即送 50 万 token,想要更多可以通过工单联系客服申请,再手动赠送 200 万 token。国产模型(Deepseek / 千问等)完全免费,没有月租,按量付费,长视频测试完全够用。

>

👉 [api.884819.xyz](https://api.884819.xyz)

---

顺便说一句——我在测试过程中发现,把 AI 的笔记再喂给另一个 AI 做二次提问,效果比直接问视频本身还要好。这个"套娃工作流"我下周会单独写一篇,感兴趣的先收藏这篇。

---

本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。

#AI工具 #Qwen #长视频理解 #AI笔记 #效率工具 #8848AI #纪录片 #AI工作流