零基础用AI写短视频脚本:从选题到分镜头,一套提示词搞定全流程

你是不是也经历过这种挫败感——

打开 ChatGPT,信心满满地输入:"帮我写一个卖面膜的短视频脚本",然后得到一段像新闻联播一样正确、完整、毫无灵魂的文字?

"随着护肤意识的不断提升,越来越多的消费者开始关注面部护理……本款面膜采用独特配方,深层滋养,让您的肌肤焕发光彩……"

看完之后,你把这段话关掉,然后自己从头写。

但同样是用 AI,有人已经在批量生产爆款脚本——月产 500 条,条条能用,不少还真的跑出了流量。

差距不在工具,在工作流。

根据巨量引擎 2024 年数据,抖音日均视频发布量已突破 1500 万条,平台创作者规模同比增长 23%。竞争越来越卷,但内容生产效率决定了你能不能活下去。传统人工写一条完整脚本平均需要 1.5-2 小时;掌握正确工作流之后,AI 辅助完成同样的工作只需要 28 分钟

这篇文章,我把短视频脚本创作拆解成 4 个标准化环节,每个环节给你可以直接复用的提示词模板。跟着走一遍,今晚你就能产出第一条专业级脚本。

---

为什么你用 AI 写出的脚本总是"AI 味太重"?

根本原因只有一个:你给 AI 的是需求,不是生产指令。

"帮我写一个短视频脚本"——这句话对 AI 来说,信息量约等于零。AI 不知道你的目标平台、受众画像、人设风格、视频时长、情绪节奏,它只能用最保险的方式输出最平均的结果。

这就像你走进一家餐厅,对服务员说"给我做点好吃的"——端上来的大概率是一碗白米饭。

正确的做法,是把创作过程拆解成 4 个环节,用不同的提示词策略驱动每一步:

1. 选题 → 用 AI 做选题矩阵,批量生成并评分

2. 大纲 → 用结构化提示词生成符合平台节奏的内容骨架

3. 脚本 → 多轮迭代,从"能用"打磨到"能火"

4. 分镜 → 把文字转化为可执行的画面语言

下面我们逐步拆解。

---

Step 1 & 2:AI 选题 + 爆款大纲生成

选题:别靠灵感,用矩阵

很多人选题靠感觉,今天觉得这个热,明天觉得那个有意思。这种方式效率极低,而且容易踩坑。

正确的做法是让 AI 帮你建一个选题矩阵,按"争议性 × 实用性 × 时效性"三个维度打分排序,把主观判断变成可量化的决策。

📋 选题生成提示词模板:
你是一位有5年经验的短视频内容策划,熟悉抖音平台算法和爆款规律。

请为以下条件生成10个视频选题:

  • 目标领域:[填入你的领域,如"职场效率工具"]
  • 目标受众:[填入受众画像,如"25-35岁职场白领,有提效需求,轻度技术背景"]
  • 视频风格:[如"干货知识类,真人出镜,时长60秒"]

对每个选题按以下三个维度打分(1-10分):

  • 争议性:能否引发评论区讨论?
  • 实用性:观众看完能立刻用上吗?
  • 时效性:与当下热点/趋势的关联度?

输出格式:

| 选题标题 | 争议性 | 实用性 | 时效性 | 综合分 | 推荐理由(20字内)|

把综合分最高的 2-3 个选题留下来,进入下一步。

大纲:注入"平台基因"

同一个选题,在抖音、B 站、小红书的内容逻辑完全不同:

  • 抖音:前 3 秒必须有钩子,节奏快,情绪强,结尾要有反转或金句
  • B 站:允许更长的铺垫,用户容忍度高,知识密度要够,弹幕互动友好
  • 小红书:强调"我的真实体验",第一人称,场景感强,结尾要有行动指引

这些差异必须在提示词里明确告诉 AI。

📋 大纲生成提示词模板(以抖音为例):
你是一位专注抖音平台的内容策划,深度理解抖音算法和用户心理。

请为以下选题生成一份符合抖音节奏的视频大纲:

选题:[填入选题]

时长目标:60秒

结构要求:严格遵循"黄金三段式"——

1. 钩子(0-5秒):制造悬念/痛点/反常识,让用户停止划走

2. 价值主体(5-50秒):分3个核心点呈现,每个点不超过15秒

3. 行动收尾(50-60秒):明确告诉用户"现在去做X"或留下讨论钩

额外要求:

  • 钩子必须包含一个具体的数字或场景
  • 每个核心点用"结论先行"的方式呈现
  • 结尾要设计一个能引发评论的问题

请输出大纲,并在每个部分后面注明"为什么这样设计"。

---

Step 3:从大纲到完整脚本的"精调术"

这是整个工作流最核心的部分。很多人在这一步放弃——因为 AI 生成的初稿确实很"AI"。

但问题不是 AI 不行,而是你只发出了一轮指令。

专业的做法是四轮迭代,每轮解决一个具体问题:

第一轮:生成初稿

基于以上大纲,请生成完整的口播脚本。

要求:

  • 口语化表达,像真人在说话,不要书面语
  • 每句话不超过20个字
  • 避免使用"首先、其次、最后"这类过渡词
  • 避免使用"众所周知、不可否认"这类套话

第二轮:注入人设语气

请用以下人设重新改写上面的脚本:

人设:[例如:"一个在互联网大厂待了8年、说话直接不废话、偶尔带点自嘲幽默的产品经理"]

要求:

  • 保留原有信息点,但换成这个人设会说的话
  • 可以加入1-2个符合这个人设的口头禅或习惯性表达
  • 整体语气要像在和朋友聊天,不像在讲课
⚠️ 避坑提醒:人设描述越具体越好。"幽默风趣"这种描述对 AI 没有意义,"说话喜欢用反问句、偶尔夹一两个英文词、会用'说真的'开头"这种描述才有效。

第三轮:压缩到目标时长

这里有一个实用公式:字数 = 秒数 × 3.5(正常语速下,每秒约 3.5 个汉字)

| 视频时长 | 目标字数 | | 30 秒 | 约 105 字 | | 60 秒 | 约 210 字 | | 90 秒 | 约 315 字 | | 3 分钟 | 约 630 字 |
请把上面的脚本压缩到210字以内(目标时长60秒)。

压缩原则:

  • 优先删除过渡性表达和重复信息
  • 保留所有核心信息点和钩子句
  • 压缩后每个信息点之间的逻辑仍然清晰

第四轮:植入情绪节奏标记

请在脚本中加入情绪节奏标记,格式如下:

[快节奏] 适合快速说完的部分

[停顿0.5s] 需要给观众反应时间的地方

[强调] 需要加重语气的关键词

[降速] 讲重要信息时放慢语速

请在每句话前或关键词旁加入对应标记,帮助后期录制时把控节奏。

经过这四轮迭代,脚本会从"能用"变成"能火"。

不同 AI 模型的实际表现差异

我用同一个选题分别测试了三个主流模型(满分 10 分):

| 模型 | 创意性 | 口语化 | 逻辑性 | 适合场景 | | GPT-4o | 8.5 | 7.5 | 9 | 结构复杂的知识类脚本 | | Claude 3.5 | 9 | 8.5 | 8.5 | 需要人设感强、有温度的脚本 | | DeepSeek V3 | 7.5 | 8 | 8.5 | 中文语境下的带货/生活类脚本 |

三个模型各有擅长,实际使用中建议对同一选题分别生成,取最优的部分拼合。如果你想一站式调用多个顶级模型进行对比测试,可以通过 api.884819.xyz 这类聚合 API 平台统一接入,省去逐个注册的麻烦,对比测试效率直接翻倍。

---

Step 4:让 AI 帮你画分镜头脚本

脚本写完,很多人就交给拍摄团队了——然后发现拍出来的东西和自己想象的完全不一样。

原因是文字脚本和执行脚本之间有一道鸿沟,分镜头脚本就是填平这道沟的桥梁。

📋 分镜头生成提示词模板:
请把以下口播脚本转化为标准分镜头脚本,以表格形式输出。

脚本内容:[粘贴你的脚本]

表格字段:

| 镜号 | 画面描述 | 景别 | 运镜方式 | 台词/字幕 | 时长(秒) | BGM情绪 |

景别选项:大全景/全景/中景/近景/特写/大特写

运镜选项:固定/推/拉/摇/移/跟/升/降

BGM情绪选项:轻松/紧张/温暖/激励/悬疑/欢快

要求:

  • 每个镜头时长控制在2-5秒
  • 画面描述要具体到"画面中有什么、人物在做什么、背景是什么"
  • 运镜方式要符合情绪节奏(钩子部分建议用推镜或特写)

生成的分镜头表格大概长这样:

| 镜号 | 画面描述 | 景别 | 运镜 | 台词 | 时长 | BGM情绪 | | 01 | 主播坐在简洁白色书桌前,手持手机,表情困惑 | 中景 | 固定 | 你用 AI 写脚本,是不是也写出过这种东西? | 4s | 轻松 | | 02 | 手机屏幕特写,显示一段"AI 味"极重的脚本文字 | 大特写 | 推镜 | (无台词,字幕:这段话是 AI 写的) | 3s | 悬疑 | | 03 | 主播转向镜头,语气转变,眼神坚定 | 近景 | 固定 | 今天教你一个方法,彻底解决这个问题 | 3s | 激励 | 进阶玩法:把分镜头表格里的"画面描述"字段直接喂给 Midjourney 或可灵 AI,加上风格前缀(如 cinematic, 4K, short video style),可以生成参考画面,让拍摄团队对齐视觉预期。

---

实战案例:30 分钟产出一条 60 秒带货脚本

我们用"AI 智能保温杯"这个产品走一遍完整流程。

选题输出(部分):
综合分最高的选题:《为什么我戒掉了奶茶,但没戒掉这个杯子》(争议性 8 / 实用性 7 / 时效性 8 / 综合分 7.7)
最终脚本(第四轮迭代后):
[快节奏] 我戒奶茶戒了三次,全失败了。

>

[停顿 0.5s] 但这次,我用了一个笨方法——

>

[强调] 把奶茶换成了这杯东西。

>

[降速] 它有个功能,叫精准控温。55 度,是人喝东西最舒服的温度。

>

[快节奏] 我现在每天早上泡一杯黑咖啡,放进去,上班路上喝,一口都不烫,一口都不凉。

>

[停顿 0.5s] 戒奶茶这件事,说到底是个替代品的问题。

>

[强调] 你评论区告诉我——你戒过几次奶茶?
分镜头脚本(节选): | 镜号 | 画面描述 | 景别 | 运镜 | 台词 | 时长 | BGM | | 01 | 主播站在咖啡馆门口,手里拿着一次性奶茶杯,表情无奈 | 中景 | 固定 | 我戒奶茶戒了三次,全失败了 | 4s | 轻松 | | 02 | 手慢慢放下奶茶杯,拿起智能保温杯,特写杯身 | 特写 | 推镜 | 但这次,我用了一个笨方法 | 3s | 悬疑 | | 03 | 屏幕显示 APP 控温界面,手指点击 55°C | 大特写 | 固定 | 55 度,是人喝东西最舒服的温度 | 4s | 温暖 |

本文实战案例中的所有 AI 输出,均通过 api.884819.xyz 提供的 API 接口生成。它支持 GPT-4o、Claude、Gemini 等主流模型的统一调用,按量计费无需月费,特别适合短视频脚本生产这种"高频但单次 token 消耗不大"的使用场景——一条 60 秒脚本的完整四轮迭代,成本不超过 0.3 元人民币。

---

工具清单

| 用途 | 推荐工具 | 特点 | | AI 模型调用 | api.884819.xyz | 多模型聚合、中国用户友好、性价比高 | | 分镜头表格 | 飞书多维表格 / Notion | 团队协作,可实时共享 | | AI 参考画面生成 | 可灵 AI / Midjourney | 前者中文友好,后者质量更高 | | 脚本管理 | 语雀 / 飞书文档 | 版本管理,方便迭代记录 | | 录制辅助 | 提词器 App(如"提词大师")| 直接导入脚本,解放双手 |

---

今天就能做的 3 件事

1. 复制本文的选题提示词,填入你的领域,生成你的第一个选题矩阵

2. 选综合分最高的选题,用大纲提示词生成内容骨架

3. 走完四轮脚本迭代,感受脚本从"AI 味"到"人味"的变化

AI 不会取代编导,但会用 AI 的编导会取代不会的。

你的第一条 AI 脚本,今晚就能完成。

---

🔜 下篇预告:《AI 脚本进阶:用一条 Prompt 让 AI 帮你做竞品分析 + 爆款改写》

>

今天我们解决了"从 0 到 1 写出脚本"的问题。但真正的高手不是自己想选题,而是让 AI 拆解别人的爆款,然后改写成自己的风格

>

下一篇,我会教你:
- 如何用 AI 在 3 分钟内逆向拆解任意一条爆款视频的脚本结构
- 一套"爆款改写"提示词公式,合法合规地借鉴而非抄袭
- 批量化生产脚本的自动化工作流搭建(含完整 Python 代码)

>

关注本系列,下周更新时第一时间获取。

---

本文由8848AI原创,转载请注明出处。