本文最后更新于 2026-04-13，文章内容可能已经过时。

我把一部120分钟中文纪录片扔给通义千问 Qwen3：它能做出带时间戳的知识卡片，但真正难的不是“看懂”

我把一部整整 120 分钟 的中文纪录片扔给通义千问 Qwen3，本来只是想看看它会不会崩，结果它真的吐出了带时间戳的知识卡片——但中间翻了两次车。

这件事之所以值得写，不是因为“模型又变强了”这种泛泛结论，而是因为很多人对视频理解的想象，还停留在“让 AI 总结一个 3 分钟短视频”。真正有价值的场景，其实是另一类内容：

一门 30 节录播课
一场 2 小时会议纪要
一期长访谈
一部纪录片

这些内容的共同点是：信息密度高、长度长、后续还要复用。

所以这次测试，我给自己定的目标很明确：不是比参数，不是看炫技 Demo，而是验证通义千问 Qwen3 能不能稳定产出 带时间戳、可检索、可复用的知识卡片。判断标准也只有 5 个：

摘要准确性
时间戳对齐
信息密度
结构化程度
可复现性

长视频理解真正要解决的，不是“AI 会不会总结”，而是“总结完之后你能不能拿去用”。

为什么要拿 120 分钟纪录片做硬测

测试对象是一部中文纪录片，总时长 120 分钟，普通话旁白，带中文字幕。题材偏产业与社会变迁，适合检验模型在以下几类信息上的表现：

事实叙述
时间线梳理
人物与事件关系
观点提炼
章节化总结

我故意没选短视频，也没选剪辑很花的综艺，因为那种任务更像“内容识别”；而纪录片、课程、访谈，更接近大家真实会拿来做知识整理的材料。

整个实验流程很简单，但绝不是“一句 Prompt 出奇迹”：

原始视频 → 转写/字幕 → 分段 → 调用通义千问 Qwen3 → 汇总 → 知识卡片输出

这一步看起来朴素，真正决定成败的，恰恰是中间三件事：分段、时间轴、结构化输出。

从原始视频到知识卡片，我是怎么跑通的

先说结论：长视频不能整部扔进去等奇迹。 真正可用的做法，通常是多步流水线。

第一步：先拿到“可引用的时间轴”

如果视频自带字幕，优先用字幕；如果没有，就先做 ASR 转写。原因很现实：模型可以理解内容，但时间戳最好来自已有时间轴，不要让模型自由发挥。

我最终采用的字段结构大概是这样：

{
"segment_id": "seg_03",
"start_time": "00:24:10",
"end_time": "00:31:40",
"title": "产业转型的关键节点",
"summary": "这一段主要讲地方制造业从代工走向技术升级的转折。",
"keywords": ["产业升级", "政策", "技术扩散"]
}

第二步：先切片，再理解

第一次我偷懒，直接把整片内容连同字幕一起丢给模型，Prompt 也很直白：“请总结整部纪录片并附时间戳。”

结果看起来挺像回事，问题也很典型：

总结很顺
金句很多
但关键段落漏了
时间点是“差不多对”，不够精确

后来改成按 8-15 分钟 切片，单段先做摘要，再做全局汇总，效果明显稳定。

第三步：输出不要写成散文，要写成卡片

如果你只要一篇摘要，模型当然能写。但一旦你后面想做搜索、索引、复习、二次改写，最有价值的不是文章，而是结构化卡片。

我最后固定每张卡片包含 4 个字段：

标题
时间戳
核心知识点
延伸关键词/说明

踩坑 1：上下文越长，不代表理解越好

这是我这次最明显的感受。

很多人以为长上下文就像大仓库，东西全塞进去总归更完整。现实更像是：你把整屋资料摊满桌子，模型当然“都看见了”，但不一定能抓住重点。

失败版 Prompt

请总结这部120分钟中文纪录片的核心内容，并按章节列出重点，同时附带时间戳。

这个 Prompt 的问题在于：

没限定输出格式
没规定时间戳来源
没要求逐段处理
默许模型“脑补式归纳”

结果就是：摘要完整度看似 70 分，细节可信度只有 50 分。

优化版 Prompt

你将收到一段带有明确开始和结束时间的字幕文本。
请仅依据该片段内容完成以下任务：

1. 输出片段标题
2. 用3-5条要点总结核心信息
3. 提取3个关键词
4. 时间信息必须直接引用输入中的 start_time 和 end_time，不得自行推测新的时间点
5. 输出为 JSON，不要输出额外解释

字段格式：
{
"segment_id": "",
"start_time": "",
"end_time": "",
"title": "",
"summary_points": [],
"keywords": []
}

这版 Prompt 看起来“没灵气”，但工程上更可靠。

三种方案对比

| 方案 | 做法 | 摘要完整度 | 时间戳准确度 | 可读性 | 成本/耗时 | 人工校对量 | |---|---|---:|---:|---:|---:|---:| | A | 整片直接输入 | 72% | 41% | 中 | 低 | 高 | | B | 按时长切片后汇总 | 86% | 68% | 高 | 中 | 中 | | C | 切片 + 时间轴映射优化 | 89% | 91% | 高 | 中高 | 低 |

结论非常明确：

在长视频任务里，切片策略比模型参数表更影响结果质量。

踩坑 2：时间戳不是文案字段，而是工程问题

第二次翻车更隐蔽。

一开始我以为“附时间戳”只是让模型多输出一个字段。后来发现完全不是这么回事。中文纪录片里经常会出现：

旁白提前说结论
画面在放 B-roll
人物采访和字幕不同步
插叙打乱顺序

这时如果你要求模型“顺便写时间戳”，它很容易出现三种错误：

1. 近似时间：明明在 00:46:20，写成 00:45:00

2. 区间漂移：把一个知识点映射到前一个片段

3. 多个知识点共用同一时间点

两个失败样例

失败样例 1：漏掉关键信息

原视频实际内容：00:24:10-00:31:40 重点讨论“地方产业从代工转向技术研发”
模型输出：只写成“产业升级面临挑战”
误差说明：概括没错，但把最有价值的“转型路径”丢了

失败样例 2：时间戳偏移

原视频实际内容：01:13:05 开始出现关键访谈，谈政策落地
模型输出：标成 01:08:00
误差说明：模型根据上下文主题推断了一个“合理时间”，但不是实际时间

我的修正方法

我后面改成了两层映射：

1. 片段级定位：先确定知识点属于哪个 segment_id

2. 时间轴回填：再用该片段的原始 start_time/end_time 回填

也就是说，让模型负责理解，不让模型负责发明时间。

最终知识卡片长什么样

下面是几张整理后的样例卡片。

卡片 1

标题：产业升级的转折点
时间戳：00:24:10 - 00:31:40
核心知识点：

- 地方制造业从低附加值代工转向自主研发

- 政策扶持与技术扩散共同推动转型

- 企业负责人开始从“接单思维”转向“产品思维”

关键词：产业升级 技术扩散 政策驱动

卡片 2

标题：基础设施改变区域分工
时间戳：00:42:00 - 00:49:15
核心知识点：

- 交通网络提升降低了产业迁移成本

- 人才与资本开始向节点城市集中

- 区域协同成为产业链重构的重要背景

关键词：基础设施 区域协同 产业链

卡片 3

标题：访谈中的代际认知差异
时间戳：01:13:05 - 01:19:20
核心知识点：

- 老一代更看重稳定与经验积累

- 年轻从业者更关注技术、品牌和全球化视角

- 代际差异影响企业决策节奏

关键词：代际差异 决策方式 全球化

卡片 4

标题：政策落地的真实阻力
时间戳：01:28:30 - 01:35:00
核心知识点：

- 文件层面的支持不等于执行层面的效率

- 中小企业更受融资和人才约束

- 政策有效性依赖地方执行能力

关键词：政策执行 中小企业 融资

代码怎么跑：给你两段最小可用示例

示例 1：分段摘要并输出 JSON

segments = [
{"segment_id": "seg_01", "start_time": "00:00:00", "end_time": "00:08:30", "text": "字幕内容..."},
{"segment_id": "seg_02", "start_time": "00:08:31", "end_time": "00:16:20", "text": "字幕内容..."}
]

results = []
for seg in segments:
result = {
"segment_id": seg["segment_id"],
"start_time": seg["start_time"],
"end_time": seg["end_time"],
"title": "示例标题",
"summary": "这一段主要讲……",
"keywords": ["关键词1", "关键词2"]
}
results.append(result)

示例 2：多段汇总生成 Markdown 卡片

cards = []
for seg in results:
cards.append({
"time": f"{seg['start_time']}-{seg['end_time']}",
"title": seg["title"],
"points": seg["summary"]
})

for card in cards:
print(f"### {card['title']}\n- 时间：{card['time']}\n- 要点：{card['points']}\n")

普通用户能不能上手？可以，但别把它想成魔法

这次测试之后，我的判断很直接：通义千问 Qwen3 已经足够把长视频知识提取带到“能落地”的阶段了，尤其适合下面几类内容：

纪录片
课程录播
演讲
访谈
会议记录

但它也有边界：

人物关系特别复杂的视频，容易漏关联
画面信息重于旁白的内容，效果会下降
字幕质量差，会直接拖累时间轴准确度

所以最实用的建议不是“换更强模型”，而是先把流程跑顺：

1. 先拿到可靠字幕

2. 按 8-15 分钟切片

3. 先做片段摘要，再做全局汇总

4. 时间戳只引用原始时间轴

5. 输出固定 JSON/Markdown 结构

如果你也想拿自己的课程视频、会议录播或纪录片试一下，不想自己折腾底层接入，可以直接用现成的 API 通道快速跑通。像 api.884819.xyz 这种方式，更适合先验证工作流，再决定要不要深度工程化。平台支持用户名+密码直接注册，不需要邮箱验证；注册即送 5 元体验额度，而且平台内置 AI 对话功能，注册后就能直接用。国产模型（Deepseek R1/V3、通义千问 Qwen3、Kimi K2.5、GLM-5）完全免费，没有月租、没有订阅，按量付费。

最后再提醒一句：长视频理解这件事，真正决定体验的，从来不只是模型本身。

模型负责“理解”，流程负责“可用”。

如果你现在正想试，最好的第一步不是追求一步到位，而是先跑出第一版知识卡片，再回头优化切片和时间轴。即日起新注册用户系统自动送50万token，想要更多可以通过工单联系客服申请，再手动赠送200万token。

而我下一篇，准备继续把这件事往前推一步：如果这篇解决的是“120 分钟纪录片怎么读”，下一篇我会把它升级成一条自动流水线——上传视频后，自动转写、切片、摘要、打标签、生成知识卡片，全程无需手工复制 Prompt。

本文由8848AI原创，转载请注明出处。关注8848AI，带你从零开始学AI。

#AI教程 #通义千问 #Qwen3 #长视频理解 #知识卡片 #8848AI #人工智能