本文最后更新于 2026-03-13，文章内容可能已经过时。

零基础用AI写短视频脚本：从选题到分镜头的完整工作流（附6条提示词模板）

先看一段脚本，你来判断它能不能用：

"大家好，今天我来给大家分享一些关于早餐制作的实用技巧。早餐对于我们的健康非常重要，一顿营养均衡的早餐可以为我们提供充足的能量。下面我将为大家介绍几种简单易做的早餐方案……"

这是一个真实用户把"帮我写一个关于打工人早餐的短视频脚本"丢给AI之后，得到的开头。

如果你用AI写出来的脚本也长这样——恭喜你，你和99%的人犯了同一个错。

问题不在AI太笨，而在于你少了一套工作流。

---

为什么你用AI写的脚本总是"AI味太重"？

根据巨量算数2024年的内容趋势报告，短视频平均完播率的分水岭在前3秒。而大多数人用AI生成的脚本，开头清一色是"大家好，今天给大家分享……"——这种开场白在算法面前等于自杀。

核心问题是：你给AI的指令越模糊，AI给你的内容就越"安全"，越"安全"就越无聊。

AI本质上是一个极其听话的协作者，你说"写个脚本"，它就给你一个最大概率正确、最不可能出错的版本——而这恰恰是短视频最忌讳的东西。

真正有效的AI写作，不是"一句话换一篇文章"，而是一套人机协作工作流：你负责提供结构、约束和方向，AI负责在框架内高效产出。

接下来，我把这套工作流拆成三步，每步都有可以直接复制的提示词模板。

---

第一步：用AI做选题——从"拍什么"到"拍什么一定火"

很多人以为选题靠灵感，其实靠的是数据+角度。AI在这一步能帮你做三件事：

动作一：热点捕捉

把平台的热门话题或评论区截图喂给AI，让它帮你提炼高频痛点。

【提示词模板1：热点话题分析】

你是一名有5年经验的短视频选题策划，擅长从平台数据中发现内容机会。

我的账号定位是：[填入你的账号定位，如"职场打工人日常"]
目标平台：[抖音/小红书/视频号]

请你帮我分析以下评论区内容，提炼出：
1. 用户最高频的3个痛点（用原话风格表达）
2. 每个痛点背后隐藏的情绪（焦虑/愤怒/期待/共鸣）
3. 针对每个痛点，给出2个可以拍摄的选题方向

评论区内容：[粘贴评论截图或文字]

动作二：选题验证

好选题不是你觉得好，是目标用户愿意点进来。

【提示词模板2：选题点击意愿评分】

请你扮演一个每天刷2小时抖音的25-35岁城市白领，手机里关注了50个生活类账号。

我有以下5个备选选题，请你从"刷到这个标题你会不会点进去"的角度，给每个选题打分（1-10分），并说明理由：

选题列表：
1. [选题A]
2. [选题B]
3. [选题C]
4. [选题D]
5. [选题E]

评分维度：
标题吸引力（是否制造好奇/冲突/共鸣）
内容刚需性（这个信息我现在需要吗）
差异化（和我刷过的内容有没有不同）

最后推荐得分最高的2个，并说明为什么。

动作三：角度切割

大选题拍不了，要把它切成有冲突感的小切口。

【提示词模板3：选题角度切割】

选题：[你的大选题，如"职场沟通技巧"]

请帮我把这个大选题切割成5个具体的、有冲突感的小切口，要求：
每个切口都有明确的主角（谁）和场景（在哪）
包含一个反常识或反直觉的角度
标题控制在15字以内，能直接用作视频标题
举例说明拍摄时的核心"冲突点"是什么

实际效果对比：

用模板3处理"打工人早餐"这个大选题，AI给出的切口包括："3分钟早餐的秘密不是快，是提前想好"、"公司楼下711比你妈做的早餐更健康"、"我研究了100个打工人的早餐，发现一个反常识的规律"——每一个都比"早餐制作技巧分享"有记忆点得多。

💡 这里我使用的是GPT-4o模型来做选题分析。如果你还没有稳定的API调用方式，推荐通过 api.884819.xyz 接入，它聚合了GPT、Claude、Gemini等主流大模型的API，国内直连，注册即可使用，省去了海外支付和网络配置的折腾。

---

第二步：用AI写脚本——黄金结构+逐段生成

选题决定了天花板，但脚本决定了你能不能够到它。

短视频脚本的底层公式

60秒口播脚本，结构只有四段：

1. 冲突开场（0-5秒）：制造反常识、反预期的开头，强迫用户停下来

2. 痛点放大（5-20秒）：把用户的痛描述得比他自己还准

3. 解决方案（20-50秒）：给出具体、可执行的方法，有细节有步骤

4. 行动号召（50-60秒）：一句话收尾，引导点赞/收藏/评论

进阶技巧一：角色设定法

【提示词模板4：角色设定写脚本】

你现在是一个抖音粉丝量500万的生活类博主，风格是"说人话、有共鸣、有点毒舌但不失温度"。

请用以下结构，为我写一个60秒口播脚本：

选题：[你的选题]
目标用户：[描述你的核心用户，如"每天早起挤地铁、在公司吃外卖的25-30岁职场人"]
核心信息：[你最想传达的一句话]

脚本结构要求：
冲突开场（5秒内，第一句话必须制造悬念或冲突）
痛点放大（描述用户的真实处境，用"你是不是也……"句式）
解决方案（2-3个具体步骤，每步有动作有细节）
行动号召（引导收藏或评论，不要说"记得点赞关注"）

语气要求：像朋友聊天，不要用书面语，不要用"首先其次最后"。

进阶技巧二：迭代优化法

脚本从来不是一次出稿，而是一轮一轮迭代出来的。

以"打工人早餐3分钟搞定"为例，看三轮迭代的变化：

V1初稿（AI第一次输出）：

"很多打工人早上时间紧张，没有时间好好吃早餐。今天我来教大家3分钟搞定营养早餐的方法……"

第一轮追问：

这段脚本开头太平了，没有冲突感。请把开头改成"反常识开场"——
先说一个大多数人对早餐的错误认知，然后颠覆它。
不超过30字，要让人听完第一句就想继续听。

V2修改后：

"你以为早餐要早起半小时才能吃好？错了，真正会吃的人，前一天晚上就把早餐做完了。"

第二轮追问：

好多了，但"会吃的人"这个表达太虚。
改成更具体的场景描述，比如"那些早上8点半准时到公司、看起来状态很好的人"——
让听众能在脑海里想象出一个真实的人。

V3终稿：

"你有没有发现，公司里那些早上8点半就精神抖擞出现的人，他们的早餐从来不是在楼下买的——昨晚10分钟，今早3分钟，这才是他们的真实节奏。"

三轮下来，同一段话的信息量没变，但画面感、代入感、冲突感全都上来了。

💡 实际上，不同模型在脚本创作上的表现差异很大。我的经验是：选题分析用Claude，脚本撰写用GPT-4o，分镜拆解用Gemini效果最佳。通过 api.884819.xyz 的统一接口，你可以在同一个工作流里自由切换多个模型，不用分别注册和付费——这也是我日常创作的真实配置。

---

第三步：用AI拆分镜头——让脚本变成"可执行的拍摄清单"

这一步是大多数AI写作教程缺失的关键环节。

脚本写完了，但拍的时候还是一脸懵——先拍哪个镜头？景别怎么选？背景音乐用什么情绪？

一条提示词解决所有问题：

【提示词模板5：脚本转分镜头表格】

请把以下口播脚本拆解为分镜头拍摄表格，要求：

脚本内容：[粘贴你的完整脚本]

拍摄条件：只有一部iPhone手机，没有多机位，在室内拍摄

表格需包含以下列：
镜号
画面描述（具体描述画面里有什么，人物动作是什么）
景别（远景/中景/近景/特写/过肩）
时长（秒）
台词/旁白（对应这个镜头的口播内容）
BGM情绪（轻快/紧张/温暖/平静等）
转场方式（直切/淡入淡出/推进/甩镜）

最后在表格下方说明：拍摄这组镜头的建议顺序，以及哪些镜头可以合并拍摄以提高效率。

以下是用这条提示词，为"打工人早餐3分钟搞定"生成的完整分镜头表格：

| 镜号 | 画面描述 | 景别 | 时长 | 台词/旁白 | BGM情绪 | 转场 | | 01 | 博主正面看镜头，厨房背景，表情自信 | 近景 | 5s | "你有没有发现，公司里那些早上8点半就精神抖擞出现的人……" | 轻快 | 直切 | | 02 | 手机屏幕显示6:30闹钟，手伸进画面关掉 | 特写 | 3s | "……他们的早餐从来不是在楼下买的" | 轻快 | 直切 | | 03 | 前一晚备菜画面：切好的蔬菜放入保鲜盒 | 近景 | 4s | "昨晚10分钟，今早3分钟" | 轻快 | 直切 | | 04 | 博主俯拍冰箱内整齐摆放的备菜盒 | 特写 | 3s | "这才是他们的真实节奏" | 轻快 | 淡入淡出 | | 05 | 博主站在厨房，开始操作第一步 | 中景 | 5s | "第一步：前一晚把食材切好分装……" | 平静 | 直切 | | 06 | 锅里煎蛋的特写，蛋白逐渐凝固 | 特写 | 4s | "早上只需要开火，60秒出锅" | 平静 | 直切 | | 07 | 博主把早餐装进便当盒，动作利落 | 近景 | 4s | "第二步：提前备好的食材，直接加热……" | 轻快 | 直切 | | 08 | 博主拿着便当盒走向门口，回头看镜头 | 中景 | 4s | "第三步：装盒，出门" | 轻快 | 推进 | | 09 | 博主正面，表情轻松 | 近景 | 5s | "3分钟，不是因为你手速快，是因为你提前想好了" | 温暖 | 直切 | | 10 | 博主指向镜头 | 近景 | 3s | "把这个方法收藏，明晚试试" | 轻快 | 淡出 | 彩蛋： 把表格里"画面描述"这一列的内容，直接粘贴给Midjourney或即梦AI，加上"电影感、自然光、短视频风格"等关键词，就能生成对应的参考画面——在正式拍摄前，你已经知道每个镜头大概长什么样了。

---

实战串联：全流程耗时统计

用"打工人早餐3分钟搞定"这个选题，走完全流程的真实耗时：

| 阶段 | 操作内容 | 耗时 | | 选题阶段 | 热点捕捉+选题验证+角度切割 | 约8分钟 | | 脚本阶段 | 初稿生成+三轮迭代优化 | 约12分钟 | | 分镜阶段 | 分镜拆解+拍摄顺序规划 | 约8分钟 | | 合计 | 从零到完整分镜脚本 | 约28分钟 |

把这套流程产出的分镜脚本，与抖音上一个真实爆款（某生活类博主的早餐视频，点赞超50万）做结构对比：两者都采用了"反常识开场→场景代入→步骤拆解→行动号召"的四段结构，前3秒都有明确的冲突设定，分镜节奏都控制在3-5秒一个镜头。

区别在于：爆款视频是那个博主积累了3年拍摄经验之后，凭直觉做出来的。而我们用AI工作流，在28分钟内复制了同样的结构逻辑。

---

工具清单

全流程用到的工具汇总：

AI模型API调用：[api.884819.xyz](https://api.884819.xyz)（支持GPT/Claude/Gemini等主流模型，国内直连，按量付费）
提示词管理：Notion或飞书文档（建立个人提示词库）
分镜参考图生成：即梦AI（国内直连，免费额度够用）
脚本协作文档：腾讯文档（方便在手机和电脑之间同步）

---

写在最后

AI不是来替代创作者的，它做的事情是把专业编导的思维框架平民化。

以前，一个有经验的编导之所以能快速判断选题好不好、脚本有没有冲突感、分镜节奏对不对——靠的是几年积累下来的内容直觉。这种直觉很难教，更难复制。

而现在，通过一套结构化的提示词工作流，你可以把这套直觉"外包"给AI——它帮你做判断，你负责提供方向和约束，最后把关输出质量。

工具已经准备好了，现在轮到你按下开始键。

---

### 📌 下一篇预告

脚本写完了，然后呢？

今天我们产出了一份完整的分镜头脚本表格——下一篇，我们要把它直接"喂"给AI工具，自动匹配画面素材、生成语音旁白、完成卡点剪辑。

AI配音+AI剪辑：不露脸、不出镜，用AI全自动生成成片的保姆级教程。

从脚本到成片，全程不超过1小时。

建议先收藏本文——下一篇发布时，你会需要回来拿今天的分镜表格模板。

---

本文由8848AI原创，转载请注明出处。