我把一部120分钟中文纪录片扔给通义千问 Qwen3:它能做出带时间戳的知识卡片,但真正难的不是“看懂”
我把一部120分钟中文纪录片扔给通义千问 Qwen3:它能做出带时间戳的知识卡片,但真正难的不是“看懂”
我把一部整整 120 分钟 的中文纪录片扔给通义千问 Qwen3,本来只是想看看它会不会崩,结果它真的吐出了带时间戳的知识卡片——但中间翻了两次车。
这件事之所以值得写,不是因为“模型又变强了”这种泛泛结论,而是因为很多人对视频理解的想象,还停留在“让 AI 总结一个 3 分钟短视频”。真正有价值的场景,其实是另一类内容:
- 一门 30 节录播课
- 一场 2 小时会议纪要
- 一期长访谈
- 一部纪录片
这些内容的共同点是:信息密度高、长度长、后续还要复用。
所以这次测试,我给自己定的目标很明确:不是比参数,不是看炫技 Demo,而是验证通义千问 Qwen3 能不能稳定产出 带时间戳、可检索、可复用的知识卡片。判断标准也只有 5 个:
- 摘要准确性
- 时间戳对齐
- 信息密度
- 结构化程度
- 可复现性
长视频理解真正要解决的,不是“AI 会不会总结”,而是“总结完之后你能不能拿去用”。
为什么要拿 120 分钟纪录片做硬测
测试对象是一部中文纪录片,总时长 120 分钟,普通话旁白,带中文字幕。题材偏产业与社会变迁,适合检验模型在以下几类信息上的表现:
- 事实叙述
- 时间线梳理
- 人物与事件关系
- 观点提炼
- 章节化总结
我故意没选短视频,也没选剪辑很花的综艺,因为那种任务更像“内容识别”;而纪录片、课程、访谈,更接近大家真实会拿来做知识整理的材料。
整个实验流程很简单,但绝不是“一句 Prompt 出奇迹”:
原始视频 → 转写/字幕 → 分段 → 调用通义千问 Qwen3 → 汇总 → 知识卡片输出这一步看起来朴素,真正决定成败的,恰恰是中间三件事:分段、时间轴、结构化输出。
从原始视频到知识卡片,我是怎么跑通的
先说结论:长视频不能整部扔进去等奇迹。 真正可用的做法,通常是多步流水线。
第一步:先拿到“可引用的时间轴”
如果视频自带字幕,优先用字幕;如果没有,就先做 ASR 转写。原因很现实:模型可以理解内容,但时间戳最好来自已有时间轴,不要让模型自由发挥。
我最终采用的字段结构大概是这样:
{
"segment_id": "seg_03",
"start_time": "00:24:10",
"end_time": "00:31:40",
"title": "产业转型的关键节点",
"summary": "这一段主要讲地方制造业从代工走向技术升级的转折。",
"keywords": ["产业升级", "政策", "技术扩散"]
}
第二步:先切片,再理解
第一次我偷懒,直接把整片内容连同字幕一起丢给模型,Prompt 也很直白:“请总结整部纪录片并附时间戳。”
结果看起来挺像回事,问题也很典型:
- 总结很顺
- 金句很多
- 但关键段落漏了
- 时间点是“差不多对”,不够精确
后来改成按 8-15 分钟 切片,单段先做摘要,再做全局汇总,效果明显稳定。
第三步:输出不要写成散文,要写成卡片
如果你只要一篇摘要,模型当然能写。但一旦你后面想做搜索、索引、复习、二次改写,最有价值的不是文章,而是结构化卡片。
我最后固定每张卡片包含 4 个字段:
- 标题
- 时间戳
- 核心知识点
- 延伸关键词/说明
踩坑 1:上下文越长,不代表理解越好
这是我这次最明显的感受。
很多人以为长上下文就像大仓库,东西全塞进去总归更完整。现实更像是:你把整屋资料摊满桌子,模型当然“都看见了”,但不一定能抓住重点。
失败版 Prompt
请总结这部120分钟中文纪录片的核心内容,并按章节列出重点,同时附带时间戳。
这个 Prompt 的问题在于:
- 没限定输出格式
- 没规定时间戳来源
- 没要求逐段处理
- 默许模型“脑补式归纳”
结果就是:摘要完整度看似 70 分,细节可信度只有 50 分。
优化版 Prompt
你将收到一段带有明确开始和结束时间的字幕文本。
请仅依据该片段内容完成以下任务:
1. 输出片段标题
2. 用3-5条要点总结核心信息
3. 提取3个关键词
4. 时间信息必须直接引用输入中的 start_time 和 end_time,不得自行推测新的时间点
5. 输出为 JSON,不要输出额外解释
字段格式:
{
"segment_id": "",
"start_time": "",
"end_time": "",
"title": "",
"summary_points": [],
"keywords": []
}
这版 Prompt 看起来“没灵气”,但工程上更可靠。
三种方案对比
| 方案 | 做法 | 摘要完整度 | 时间戳准确度 | 可读性 | 成本/耗时 | 人工校对量 | |---|---|---:|---:|---:|---:|---:| | A | 整片直接输入 | 72% | 41% | 中 | 低 | 高 | | B | 按时长切片后汇总 | 86% | 68% | 高 | 中 | 中 | | C | 切片 + 时间轴映射优化 | 89% | 91% | 高 | 中高 | 低 |结论非常明确:
在长视频任务里,切片策略比模型参数表更影响结果质量。
踩坑 2:时间戳不是文案字段,而是工程问题
第二次翻车更隐蔽。
一开始我以为“附时间戳”只是让模型多输出一个字段。后来发现完全不是这么回事。中文纪录片里经常会出现:
- 旁白提前说结论
- 画面在放 B-roll
- 人物采访和字幕不同步
- 插叙打乱顺序
这时如果你要求模型“顺便写时间戳”,它很容易出现三种错误:
1. 近似时间:明明在 00:46:20,写成 00:45:00
2. 区间漂移:把一个知识点映射到前一个片段
3. 多个知识点共用同一时间点
两个失败样例
失败样例 1:漏掉关键信息- 原视频实际内容:
00:24:10-00:31:40重点讨论“地方产业从代工转向技术研发” - 模型输出:只写成“产业升级面临挑战”
- 误差说明:概括没错,但把最有价值的“转型路径”丢了
- 原视频实际内容:
01:13:05开始出现关键访谈,谈政策落地 - 模型输出:标成
01:08:00 - 误差说明:模型根据上下文主题推断了一个“合理时间”,但不是实际时间
我的修正方法
我后面改成了两层映射:
1. 片段级定位:先确定知识点属于哪个 segment_id
2. 时间轴回填:再用该片段的原始 start_time/end_time 回填
也就是说,让模型负责理解,不让模型负责发明时间。
最终知识卡片长什么样
下面是几张整理后的样例卡片。
卡片 1
- 标题:产业升级的转折点
- 时间戳:
00:24:10 - 00:31:40 - 核心知识点:
- 政策扶持与技术扩散共同推动转型
- 企业负责人开始从“接单思维”转向“产品思维”
- 关键词:
产业升级技术扩散政策驱动
卡片 2
- 标题:基础设施改变区域分工
- 时间戳:
00:42:00 - 00:49:15 - 核心知识点:
- 人才与资本开始向节点城市集中
- 区域协同成为产业链重构的重要背景
- 关键词:
基础设施区域协同产业链
卡片 3
- 标题:访谈中的代际认知差异
- 时间戳:
01:13:05 - 01:19:20 - 核心知识点:
- 年轻从业者更关注技术、品牌和全球化视角
- 代际差异影响企业决策节奏
- 关键词:
代际差异决策方式全球化
卡片 4
- 标题:政策落地的真实阻力
- 时间戳:
01:28:30 - 01:35:00 - 核心知识点:
- 中小企业更受融资和人才约束
- 政策有效性依赖地方执行能力
- 关键词:
政策执行中小企业融资
代码怎么跑:给你两段最小可用示例
示例 1:分段摘要并输出 JSON
segments = [
{"segment_id": "seg_01", "start_time": "00:00:00", "end_time": "00:08:30", "text": "字幕内容..."},
{"segment_id": "seg_02", "start_time": "00:08:31", "end_time": "00:16:20", "text": "字幕内容..."}
]
results = []
for seg in segments:
result = {
"segment_id": seg["segment_id"],
"start_time": seg["start_time"],
"end_time": seg["end_time"],
"title": "示例标题",
"summary": "这一段主要讲……",
"keywords": ["关键词1", "关键词2"]
}
results.append(result)
示例 2:多段汇总生成 Markdown 卡片
cards = []
for seg in results:
cards.append({
"time": f"{seg['start_time']}-{seg['end_time']}",
"title": seg["title"],
"points": seg["summary"]
})
for card in cards:
print(f"### {card['title']}\n- 时间:{card['time']}\n- 要点:{card['points']}\n")
普通用户能不能上手?可以,但别把它想成魔法
这次测试之后,我的判断很直接:通义千问 Qwen3 已经足够把长视频知识提取带到“能落地”的阶段了,尤其适合下面几类内容:
- 纪录片
- 课程录播
- 演讲
- 访谈
- 会议记录
但它也有边界:
- 人物关系特别复杂的视频,容易漏关联
- 画面信息重于旁白的内容,效果会下降
- 字幕质量差,会直接拖累时间轴准确度
所以最实用的建议不是“换更强模型”,而是先把流程跑顺:
1. 先拿到可靠字幕
2. 按 8-15 分钟切片
3. 先做片段摘要,再做全局汇总
4. 时间戳只引用原始时间轴
5. 输出固定 JSON/Markdown 结构
如果你也想拿自己的课程视频、会议录播或纪录片试一下,不想自己折腾底层接入,可以直接用现成的 API 通道快速跑通。像 api.884819.xyz 这种方式,更适合先验证工作流,再决定要不要深度工程化。平台支持用户名+密码直接注册,不需要邮箱验证;注册即送 5 元体验额度,而且平台内置 AI 对话功能,注册后就能直接用。国产模型(Deepseek R1/V3、通义千问 Qwen3、Kimi K2.5、GLM-5)完全免费,没有月租、没有订阅,按量付费。
最后再提醒一句:长视频理解这件事,真正决定体验的,从来不只是模型本身。
模型负责“理解”,流程负责“可用”。
如果你现在正想试,最好的第一步不是追求一步到位,而是先跑出第一版知识卡片,再回头优化切片和时间轴。即日起新注册用户系统自动送50万token,想要更多可以通过工单联系客服申请,再手动赠送200万token。
而我下一篇,准备继续把这件事往前推一步:如果这篇解决的是“120 分钟纪录片怎么读”,下一篇我会把它升级成一条自动流水线——上传视频后,自动转写、切片、摘要、打标签、生成知识卡片,全程无需手工复制 Prompt。
本文由8848AI原创,转载请注明出处。关注8848AI,带你从零开始学AI。#AI教程 #通义千问 #Qwen3 #长视频理解 #知识卡片 #8848AI #人工智能