AI自动生成短视频-方案调研1

本文系统介绍了AI短剧制作的三大技术路线：基于ComfyUI的工作流方案、扣子空间模板化工具和AI动画精灵平台。详细解析了从剧本生成到最终剪辑的五步工作流程，对比了各方案在自动化程度、角色一致性、多角色对话等方面的优缺点。重点讨论了保持风格一致性的解决方案，推荐使用LoRA模型固定角色特征，并提供了分镜脚本提示词参考模板。同时列举了主流AI工具链，包括剧本创作、文生图、视频生成、配音等环节的推荐平

bennybi

1164人浏览 · 2025-11-07 11:56:28

bennybi · 2025-11-07 11:56:28 发布

1. AI短剧实现

1.1 工作流方式:

第1：用AI工具生成剧本大纲，生成分镜脚本

第2：训练角色LoRA，生成所有静态分镜图, 根据分镜脚本与要求，生成关键帧图

第3：分场景生成视频片段（每个场景生成3-4个版本选择）

第4：生成所有配音和音效，进行初步合成

第5：使用剪映专业版添加字幕和最终剪辑

2. 技术实现路线

2.1 COMFYUI

说明：工作流，通过不同功能节点组合/串联实现视频生成。
流程：
   通过AI应用（如扣子-AI办公助手）生成剧本，分镜内容，以及分镜中的首尾帧图
   根据这些镜头的首尾帧，代入工作流，生成分镜视频
   在剪映工具组装，配乐等
小结：
优点：
 开源项目，可私有化部署在AI机器上运行
缺点：
   自动部份仅限于剧本和视频生成，需要手工串联所有工序。
   学习曲线较为陡峭，节点及模型众多，不易为一般人所掌握
   目前只能生成较为简单的过场动画，不太适合多角色多人对话的动画
   角色的一致性不能保证，需训练专属角色的Lora模型
   需要准备本地AI电脑或GPU云电脑

生成的测试作品：

橘猫打工人

2.2 扣子空间工作流

说明：扣子定制的一套工具（包含工作流及用户界面设计），相比ComfyUI，提高了易用性，并提供模板帮助用户从零到一。
流程：
   在扣子空间》项目开发，新建视频生成应用（用相关模板）
   在运行界面输入创意描述，扣子自动生成剧本，人物形象，分镜详情，分镜预览等
   调整工作流参数，合成最终视频
小结：
优点：
   相对简单易用，能一句话生成剧本/分镜/人物/视频
   大厂工具，有很大的发展潜力
   支持团队账号管理
缺点：
   人物一致性不能保持得很好，需要在节点细调模型参考图
   提供的模板还不是很完善，其工作流暂不支持多人对话，只能生成旁白式的视频内容
   在线用户多时，生成经常超时
   收费，100元兑换10万个资源点，大概能生成3~5部30s短视频(视乎镜头多寡)

生成的测试作品：

股海沉浮录：老张的2020-2021_动画

2.3 AI+动画精灵

说明：一款可以根据故事内容，由AI自动生成分镜设计，套用角色素材，场景素材，并合成为动画视频的工具。
流程：
   用AI应用生成故事梗概
 输入内容，生成分镜内容，场景/角色设定等，输出中间设计文件
   在动画编辑器导入上述文件，按帧调整内容，确认后进行视频合成
小结：
优点：
   自动化程度较高，能根据故事生成基本的分镜内容，人物，场景
   允许人在环路，在自动的基础上，手动修改分镜内容，包括：人物，场景，对话，语音等
   允许上传自建的人物设计，道具使用(需提供设计分解图)
   合成过程中，利用动画编辑器可进行更细微的调整
   能完成多人完整对话的动画
   人物一致性能保持
缺点：
   官方提供的人物，场景，道具素材有限
   收费

生成的测试作品：

算法匹配的“灵魂伴侣”相亲闹剧

3. 关键问题与提示词 (不定时更新)

3.1 剧本生成要求

影片风格和美术设计要求：
风格设计：
场景设计：
主体设计：
剧本要求：

3.2 组织分镜头脚本提示词参考

- 景别：远/中/近景
- 镜头运用：FPV镜头/跟拍/推镜头/拉近/固定镜头
- 画面内容：（描述）
- 时间：5秒
- 音效：（描述）突然的重音效切入，留下寂静 / 急速的呼吸声
- 画面提示: 全景，冷色调，荒郊别墅

3.3 如何保持一致性?

需保持以下元素的一致性:

风格
场景
- 参考图：（360度场景图）天空盒子
- 详细提示词描述一致, 如：叛乱者(30岁左右，穿着黑色皮质外套，半机械化的左臂，眼中带着疲惫和坚定)
主体

方案：用LoRA模型来固定角色形象, 通过 Lora Loader 节点将LoRA模型加载到主模型上，从而在生成不同分镜时保持角色脸部、服饰等特征的一致。

如何自动配音配乐？
如何对人物嘴型？

4. 平台，工具与模型

4.1 Comfyui工作流平台

介绍：开源节点式生成式 AI 应用程序
项目仓库：
ComfyUI: https://github.com/comfyanonymous/ComfyUI
ComfyUI-Manager: https://github.com/ltdrdata/ComfyUI-Manager comfyui-manager

4..2 第三方平台

RunningHub
仙宫云

4.3 剧本创作：

-扣子空间
豆包

4.4 文生图：

通义千问

4.5 图生视频：

WAN2.2 （通义万相模型)

4.6 自动旁白:

index TTS2

4.7 自动配音:

腾讯混元foley

5 名词解释

工作流的绘图模型

通常由unet、clip、vae三方面的模型组成：

unet就是训练好的主要用于绘制的模型
clip是将text转化为conditioning的模型
vae是用于在image和latent之间互相转换的模型

K采样器（K Sampler）

承担着将随机噪声转化为具象图像的核心任务。其本质是通过多步迭代的降噪算法，逐步去除初始噪声中的冗余信息，最终生成符合文本描述的视觉内容。这种“雕刻式”生成过程，使得参数设置直接决定了图像的质量、风格和效率。

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

lmstudio-python：简化LLM操作的强大Python SDK

lmstudio-python 是一款功能强大的 Python SDK，旨在帮助开发者轻松地使用大型语言模型（LLM）进行文本生成、对话系统搭建以及其他相关应用。通过简单易用的API，lmstudio-python 能够让用户快速集成 LLM 功能，无论是进行基础文本补全还是复杂的对话系统设计。## 项目技术分析lmstudio-python SDK 以 Python 为基础，提供了一个同

火山引擎开发者社区

OBS Studio AI增强：智能场景识别与自动优化全攻略

你是否曾在直播切换场景时手忙脚乱？是否因复杂的参数配置而错失最佳直播时机？OBS Studio作为开源直播软件的佼佼者，虽提供强大的自定义功能，但传统手动操作已难以满足专业创作者对效率和质量的双重需求。本文将系统介绍如何通过AI技术增强OBS Studio的核心能力，重点实现智能场景识别与自动参数优化，让你的直播制作流程效率提升300%。读完本文你将获得：- 基于OpenCV的实时场景分析插