零基础用AI写短视频脚本:从选题到分镜头的完整工作流(附6条提示词模板)

先看一段脚本,你来判断它能不能用:

"大家好,今天我来给大家分享一些关于早餐制作的实用技巧。早餐对于我们的健康非常重要,一顿营养均衡的早餐可以为我们提供充足的能量。下面我将为大家介绍几种简单易做的早餐方案……"

这是一个真实用户把"帮我写一个关于打工人早餐的短视频脚本"丢给AI之后,得到的开头。

如果你用AI写出来的脚本也长这样——恭喜你,你和99%的人犯了同一个错。

问题不在AI太笨,而在于你少了一套工作流。

---

为什么你用AI写的脚本总是"AI味太重"?

根据巨量算数2024年的内容趋势报告,短视频平均完播率的分水岭在前3秒。而大多数人用AI生成的脚本,开头清一色是"大家好,今天给大家分享……"——这种开场白在算法面前等于自杀。

核心问题是:你给AI的指令越模糊,AI给你的内容就越"安全",越"安全"就越无聊。

AI本质上是一个极其听话的协作者,你说"写个脚本",它就给你一个最大概率正确、最不可能出错的版本——而这恰恰是短视频最忌讳的东西。

真正有效的AI写作,不是"一句话换一篇文章",而是一套人机协作工作流:你负责提供结构、约束和方向,AI负责在框架内高效产出。

接下来,我把这套工作流拆成三步,每步都有可以直接复制的提示词模板。

---

第一步:用AI做选题——从"拍什么"到"拍什么一定火"

很多人以为选题靠灵感,其实靠的是数据+角度。AI在这一步能帮你做三件事:

动作一:热点捕捉

把平台的热门话题或评论区截图喂给AI,让它帮你提炼高频痛点。

【提示词模板1:热点话题分析】

你是一名有5年经验的短视频选题策划,擅长从平台数据中发现内容机会。

我的账号定位是:[填入你的账号定位,如"职场打工人日常"]

目标平台:[抖音/小红书/视频号]

请你帮我分析以下评论区内容,提炼出:

1. 用户最高频的3个痛点(用原话风格表达)

2. 每个痛点背后隐藏的情绪(焦虑/愤怒/期待/共鸣)

3. 针对每个痛点,给出2个可以拍摄的选题方向

评论区内容:[粘贴评论截图或文字]

动作二:选题验证

好选题不是你觉得好,是目标用户愿意点进来。

【提示词模板2:选题点击意愿评分】

请你扮演一个每天刷2小时抖音的25-35岁城市白领,手机里关注了50个生活类账号。

我有以下5个备选选题,请你从"刷到这个标题你会不会点进去"的角度,给每个选题打分(1-10分),并说明理由:

选题列表:

1. [选题A]

2. [选题B]

3. [选题C]

4. [选题D]

5. [选题E]

评分维度:

  • 标题吸引力(是否制造好奇/冲突/共鸣)
  • 内容刚需性(这个信息我现在需要吗)
  • 差异化(和我刷过的内容有没有不同)

最后推荐得分最高的2个,并说明为什么。

动作三:角度切割

大选题拍不了,要把它切成有冲突感的小切口。

【提示词模板3:选题角度切割】

选题:[你的大选题,如"职场沟通技巧"]

请帮我把这个大选题切割成5个具体的、有冲突感的小切口,要求:

  • 每个切口都有明确的主角(谁)和场景(在哪)
  • 包含一个反常识或反直觉的角度
  • 标题控制在15字以内,能直接用作视频标题
  • 举例说明拍摄时的核心"冲突点"是什么
实际效果对比:

用模板3处理"打工人早餐"这个大选题,AI给出的切口包括:"3分钟早餐的秘密不是快,是提前想好"、"公司楼下711比你妈做的早餐更健康"、"我研究了100个打工人的早餐,发现一个反常识的规律"——每一个都比"早餐制作技巧分享"有记忆点得多。

💡 这里我使用的是GPT-4o模型来做选题分析。如果你还没有稳定的API调用方式,推荐通过 api.884819.xyz 接入,它聚合了GPT、Claude、Gemini等主流大模型的API,国内直连,注册即可使用,省去了海外支付和网络配置的折腾。

---

第二步:用AI写脚本——黄金结构+逐段生成

选题决定了天花板,但脚本决定了你能不能够到它。

短视频脚本的底层公式

60秒口播脚本,结构只有四段:

1. 冲突开场(0-5秒):制造反常识、反预期的开头,强迫用户停下来

2. 痛点放大(5-20秒):把用户的痛描述得比他自己还准

3. 解决方案(20-50秒):给出具体、可执行的方法,有细节有步骤

4. 行动号召(50-60秒):一句话收尾,引导点赞/收藏/评论

进阶技巧一:角色设定法

【提示词模板4:角色设定写脚本】

你现在是一个抖音粉丝量500万的生活类博主,风格是"说人话、有共鸣、有点毒舌但不失温度"。

请用以下结构,为我写一个60秒口播脚本:

选题:[你的选题]

目标用户:[描述你的核心用户,如"每天早起挤地铁、在公司吃外卖的25-30岁职场人"]

核心信息:[你最想传达的一句话]

脚本结构要求:

  • 冲突开场(5秒内,第一句话必须制造悬念或冲突)
  • 痛点放大(描述用户的真实处境,用"你是不是也……"句式)
  • 解决方案(2-3个具体步骤,每步有动作有细节)
  • 行动号召(引导收藏或评论,不要说"记得点赞关注")

语气要求:像朋友聊天,不要用书面语,不要用"首先其次最后"。

进阶技巧二:迭代优化法

脚本从来不是一次出稿,而是一轮一轮迭代出来的。

以"打工人早餐3分钟搞定"为例,看三轮迭代的变化:

V1初稿(AI第一次输出):
"很多打工人早上时间紧张,没有时间好好吃早餐。今天我来教大家3分钟搞定营养早餐的方法……"
第一轮追问:
这段脚本开头太平了,没有冲突感。请把开头改成"反常识开场"——

先说一个大多数人对早餐的错误认知,然后颠覆它。

不超过30字,要让人听完第一句就想继续听。

V2修改后:
"你以为早餐要早起半小时才能吃好?错了,真正会吃的人,前一天晚上就把早餐做完了。"
第二轮追问:
好多了,但"会吃的人"这个表达太虚。

改成更具体的场景描述,比如"那些早上8点半准时到公司、看起来状态很好的人"——

让听众能在脑海里想象出一个真实的人。

V3终稿:
"你有没有发现,公司里那些早上8点半就精神抖擞出现的人,他们的早餐从来不是在楼下买的——昨晚10分钟,今早3分钟,这才是他们的真实节奏。"

三轮下来,同一段话的信息量没变,但画面感、代入感、冲突感全都上来了。

💡 实际上,不同模型在脚本创作上的表现差异很大。我的经验是:选题分析用Claude,脚本撰写用GPT-4o,分镜拆解用Gemini效果最佳。通过 api.884819.xyz 的统一接口,你可以在同一个工作流里自由切换多个模型,不用分别注册和付费——这也是我日常创作的真实配置。

---

第三步:用AI拆分镜头——让脚本变成"可执行的拍摄清单"

这一步是大多数AI写作教程缺失的关键环节。

脚本写完了,但拍的时候还是一脸懵——先拍哪个镜头?景别怎么选?背景音乐用什么情绪?

一条提示词解决所有问题:

【提示词模板5:脚本转分镜头表格】

请把以下口播脚本拆解为分镜头拍摄表格,要求:

脚本内容:[粘贴你的完整脚本]

拍摄条件:只有一部iPhone手机,没有多机位,在室内拍摄

表格需包含以下列:

  • 镜号
  • 画面描述(具体描述画面里有什么,人物动作是什么)
  • 景别(远景/中景/近景/特写/过肩)
  • 时长(秒)
  • 台词/旁白(对应这个镜头的口播内容)
  • BGM情绪(轻快/紧张/温暖/平静等)
  • 转场方式(直切/淡入淡出/推进/甩镜)

最后在表格下方说明:拍摄这组镜头的建议顺序,以及哪些镜头可以合并拍摄以提高效率。

以下是用这条提示词,为"打工人早餐3分钟搞定"生成的完整分镜头表格:

| 镜号 | 画面描述 | 景别 | 时长 | 台词/旁白 | BGM情绪 | 转场 | | 01 | 博主正面看镜头,厨房背景,表情自信 | 近景 | 5s | "你有没有发现,公司里那些早上8点半就精神抖擞出现的人……" | 轻快 | 直切 | | 02 | 手机屏幕显示6:30闹钟,手伸进画面关掉 | 特写 | 3s | "……他们的早餐从来不是在楼下买的" | 轻快 | 直切 | | 03 | 前一晚备菜画面:切好的蔬菜放入保鲜盒 | 近景 | 4s | "昨晚10分钟,今早3分钟" | 轻快 | 直切 | | 04 | 博主俯拍冰箱内整齐摆放的备菜盒 | 特写 | 3s | "这才是他们的真实节奏" | 轻快 | 淡入淡出 | | 05 | 博主站在厨房,开始操作第一步 | 中景 | 5s | "第一步:前一晚把食材切好分装……" | 平静 | 直切 | | 06 | 锅里煎蛋的特写,蛋白逐渐凝固 | 特写 | 4s | "早上只需要开火,60秒出锅" | 平静 | 直切 | | 07 | 博主把早餐装进便当盒,动作利落 | 近景 | 4s | "第二步:提前备好的食材,直接加热……" | 轻快 | 直切 | | 08 | 博主拿着便当盒走向门口,回头看镜头 | 中景 | 4s | "第三步:装盒,出门" | 轻快 | 推进 | | 09 | 博主正面,表情轻松 | 近景 | 5s | "3分钟,不是因为你手速快,是因为你提前想好了" | 温暖 | 直切 | | 10 | 博主指向镜头 | 近景 | 3s | "把这个方法收藏,明晚试试" | 轻快 | 淡出 | 彩蛋: 把表格里"画面描述"这一列的内容,直接粘贴给Midjourney或即梦AI,加上"电影感、自然光、短视频风格"等关键词,就能生成对应的参考画面——在正式拍摄前,你已经知道每个镜头大概长什么样了。

---

实战串联:全流程耗时统计

用"打工人早餐3分钟搞定"这个选题,走完全流程的真实耗时:

| 阶段 | 操作内容 | 耗时 | | 选题阶段 | 热点捕捉+选题验证+角度切割 | 约8分钟 | | 脚本阶段 | 初稿生成+三轮迭代优化 | 约12分钟 | | 分镜阶段 | 分镜拆解+拍摄顺序规划 | 约8分钟 | | 合计 | 从零到完整分镜脚本 | 约28分钟 |

把这套流程产出的分镜脚本,与抖音上一个真实爆款(某生活类博主的早餐视频,点赞超50万)做结构对比:两者都采用了"反常识开场→场景代入→步骤拆解→行动号召"的四段结构,前3秒都有明确的冲突设定,分镜节奏都控制在3-5秒一个镜头。

区别在于:爆款视频是那个博主积累了3年拍摄经验之后,凭直觉做出来的。而我们用AI工作流,在28分钟内复制了同样的结构逻辑。

---

工具清单

全流程用到的工具汇总:

  • AI模型API调用:[api.884819.xyz](https://api.884819.xyz)(支持GPT/Claude/Gemini等主流模型,国内直连,按量付费)
  • 提示词管理:Notion或飞书文档(建立个人提示词库)
  • 分镜参考图生成:即梦AI(国内直连,免费额度够用)
  • 脚本协作文档:腾讯文档(方便在手机和电脑之间同步)

---

写在最后

AI不是来替代创作者的,它做的事情是把专业编导的思维框架平民化

以前,一个有经验的编导之所以能快速判断选题好不好、脚本有没有冲突感、分镜节奏对不对——靠的是几年积累下来的内容直觉。这种直觉很难教,更难复制。

而现在,通过一套结构化的提示词工作流,你可以把这套直觉"外包"给AI——它帮你做判断,你负责提供方向和约束,最后把关输出质量。

工具已经准备好了,现在轮到你按下开始键。

---

### 📌 下一篇预告

>

脚本写完了,然后呢?

>

今天我们产出了一份完整的分镜头脚本表格——下一篇,我们要把它直接"喂"给AI工具,自动匹配画面素材、生成语音旁白、完成卡点剪辑。

>

AI配音+AI剪辑:不露脸、不出镜,用AI全自动生成成片的保姆级教程。

>

从脚本到成片,全程不超过1小时。

>

建议先收藏本文——下一篇发布时,你会需要回来拿今天的分镜表格模板。

---

本文由8848AI原创,转载请注明出处。