AI自动生成短视频-方案调研1
本文系统介绍了AI短剧制作的三大技术路线:基于ComfyUI的工作流方案、扣子空间模板化工具和AI动画精灵平台。详细解析了从剧本生成到最终剪辑的五步工作流程,对比了各方案在自动化程度、角色一致性、多角色对话等方面的优缺点。重点讨论了保持风格一致性的解决方案,推荐使用LoRA模型固定角色特征,并提供了分镜脚本提示词参考模板。同时列举了主流AI工具链,包括剧本创作、文生图、视频生成、配音等环节的推荐平
目录
1. AI短剧实现
1.1 工作流方式:
第1:用AI工具生成剧本大纲,生成分镜脚本
第2:训练角色LoRA,生成所有静态分镜图, 根据分镜脚本与要求,生成关键帧图
第3:分场景生成视频片段(每个场景生成3-4个版本选择)
第4:生成所有配音和音效,进行初步合成
第5:使用剪映专业版添加字幕和最终剪辑
2. 技术实现路线
2.1 COMFYUI
说明:工作流,通过不同功能节点组合/串联实现视频生成。
流程:
通过AI应用(如扣子-AI办公助手)生成剧本,分镜内容,以及分镜中的首尾帧图
根据这些镜头的首尾帧,代入工作流,生成分镜视频
在剪映工具组装,配乐等
小结:
优点:
开源项目,可私有化部署在AI机器上运行
缺点:
自动部份仅限于剧本和视频生成,需要手工串联所有工序。
学习曲线较为陡峭,节点及模型众多,不易为一般人所掌握
目前只能生成较为简单的过场动画,不太适合多角色多人对话的动画
角色的一致性不能保证,需训练专属角色的Lora模型
需要准备本地AI电脑或GPU云电脑
生成的测试作品:
橘猫打工人
2.2 扣子空间工作流
说明:扣子定制的一套工具(包含工作流及用户界面设计),相比ComfyUI,提高了易用性,并提供模板帮助用户从零到一。
流程:
在扣子空间 》项目开发,新建视频生成应用(用相关模板)
在运行界面输入创意描述,扣子自动生成剧本,人物形象,分镜详情,分镜预览等
调整工作流参数,合成最终视频
小结:
优点:
相对简单易用,能一句话生成剧本/分镜/人物/视频
大厂工具,有很大的发展潜力
支持团队账号管理
缺点:
人物一致性不能保持得很好,需要在节点细调模型参考图
提供的模板还不是很完善,其工作流暂不支持多人对话,只能生成旁白式的视频内容
在线用户多时,生成经常超时
收费,100元兑换10万个资源点,大概能生成3~5部30s短视频(视乎镜头多寡)
生成的测试作品:
股海沉浮录:老张的2020-2021_动画
2.3 AI+动画精灵
说明:一款可以根据故事内容,由AI自动生成分镜设计,套用角色素材,场景素材,并合成为动画视频的工具。
流程:
用AI应用生成故事梗概
输入内容,生成分镜内容,场景/角色设定等,输出中间设计文件
在动画编辑器导入上述文件,按帧调整内容,确认后进行视频合成
小结:
优点:
自动化程度较高,能根据故事生成基本的分镜内容,人物,场景
允许人在环路,在自动的基础上,手动修改分镜内容,包括:人物,场景,对话,语音等
允许上传自建的人物设计,道具使用(需提供设计分解图)
合成过程中,利用动画编辑器可进行更细微的调整
能完成多人完整对话的动画
人物一致性能保持
缺点:
官方提供的人物,场景,道具素材有限
收费
生成的测试作品:
算法匹配的“灵魂伴侣”相亲闹剧
3. 关键问题与提示词 (不定时更新)
3.1 剧本生成要求
影片风格和美术设计要求:
风格设计:
场景设计:
主体设计:
剧本要求:
3.2 组织分镜头脚本提示词参考
- 景别: 远/中/近景
- 镜头运用:FPV镜头/跟拍/推镜头/拉近/固定镜头
- 画面内容: (描述)
- 时间:5秒
- 音效:(描述)突然的重音效切入,留下寂静 / 急速的呼吸声
- 画面提示: 全景,冷色调, 荒郊别墅
3.3 如何保持一致性?
需保持以下元素的一致性:
风格
场景
- 参考图:(360度场景图)天空盒子
- 详细提示词描述一致, 如:叛乱者(30岁左右,穿着黑色皮质外套,半机械化的左臂,眼中带着疲惫和坚定)
主体
方案:用LoRA模型来固定角色形象, 通过 Lora Loader 节点将LoRA模型加载到主模型上,从而在生成不同分镜时保持角色脸部、服饰等特征的一致。
如何自动配音配乐?
如何对人物嘴型?
4. 平台,工具与模型
4.1 Comfyui工作流平台
介绍:开源节点式生成式 AI 应用程序
项目仓库:
ComfyUI: https://github.com/comfyanonymous/ComfyUI
ComfyUI-Manager: https://github.com/ltdrdata/ComfyUI-Manager comfyui-manager
4..2 第三方平台
- RunningHub
- 仙宫云
4.3 剧本创作:
- -扣子空间
- 豆包
4.4 文生图:
- 通义千问
4.5 图生视频:
- WAN2.2 (通义万相模型)
4.6 自动旁白:
- index TTS2
4.7 自动配音:
- 腾讯混元foley
5 名词解释
工作流的绘图模型
通常由unet、clip、vae三方面的模型组成:
- unet就是训练好的主要用于绘制的模型
- clip是将text转化为conditioning的模型
- vae是用于在image和latent之间互相转换的模型
K采样器(K Sampler)
承担着将随机噪声转化为具象图像的核心任务。其本质是通过多步迭代的降噪算法,逐步去除初始噪声中的冗余信息,最终生成符合文本描述的视觉内容。这种“雕刻式”生成过程,使得参数设置直接决定了图像的质量、风格和效率。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)