又是中国团队，全球首款无限时长电影生成模型开源！AI视频进入长镜头时代！

大家可以看看这个视频长达 30 s ，几乎没有什么瑕疵，稳定性很强，只是在树枝断裂的时候，有点小毛病，但是，相比于 30 s 的时间，已经很厉害了。霸王龙怒吼后猛然冲向镜头，张口扑咬，巨大的身体掀翻树木，镜头剧烈晃动，模拟第一逃跑视角，穿越丛林，狂奔躲避追击，树枝划过镜头，恐惧与速度并存。对于一些小说或者影视剧的二创，用它会非常方便和高效，甚至如果你有想法，也可以用它做原创的短剧，以及一些产品的视

非著名程序员

1514人浏览 · 2025-04-21 11:16:19

非著名程序员 · 2025-04-21 11:16:19 发布

刚刚！AI 视频生成模型领域，又发生了一件大事。

昆仑万维开源全球首款支持无限时长的高质量电影生成模型 Skyreels-V2，支持用户自定义时长，赋能长镜头表现，稳坐开源SOTA。

开源地址：https://github.com/SkyworkAI/SkyReels-V2

官网地址：https://www.skyreels.ai/home

目前我们可以在 Skyreels 平台上体验。

早在去年8月，这款集成了视频大模型与 3D 模型，一键生成完整剧本、分镜、人物对白与背景音乐，支持角色形象、音色与分镜自定义调整的 AI 短剧产品突然爆火，当时整个AI视频行业还很青涩，主打 AI 短剧的skyreels 借助短剧潮流一炮而红，与昆仑万维目前如火如荼的短剧业务形成高度闭环，备受瞩目。

时隔半年，不仅skyreels系列视频模型成为全球开源SOTA，产品端同样提供了极具竞争力的视频功能和应用场景：

1、全球唯一长视频能力：单镜头30s一键生成，且支持无限时长连续生成，对比友商的5 - 10秒有极大优势。

2、分镜准确度极高：能根据提示词的复杂度，内置「影视专家大脑」，秒懂专业指令，自动分镜，跟随准确率91%，远远高于主流模型。

3、王家卫电影级画质：有好莱坞质感画风，720p高清画质细节逼真度提升35%。

我们可以先看一下我跑的 case ，效果确实不容小觑。

看这个视频，你就能看出效果非常好，孩子在荡秋千的时候，阳光下和树荫下不同的光暗对比，非常符合物理真实世界效果。

10 秒的视频已经很常见了，没有什么难度，长视频才能彰显技术实力，我们再来看下几个 skyreels 生成的 30 秒的视频：

是不是非常稳定呢？作品的效果离不开模型创新，目前视频生成领域的最新进展得益于扩散模型和自回归框架，然而，在协调即时性、视觉质量、运动动态和时长方面依然存在一些问题和限制。

比如，市面上大多数的视频生成模型为了提升视觉质量而牺牲运动动态；为了优先考虑分辨率而限制视频时长（5-10 秒）；以及由于通用多模态语言模型 (MLLM) 无法解读电影语法（例如镜头构图、演员表情和摄像机运动）而导致的镜头感知生成不足。这些问题结合在一起，限制阻碍了逼真的长篇合成和专业的电影风格生成。

而 SkyReels-V2 模型在这些方面取得了很大的创新突破，作为一个无限时长影片生成模型，协同多模态大型语言模型 (MLLM)、多阶段预训练、强化学习和扩散强制框架。

首先，设计了一个全面的视频结构化表示，将多模态 LLM 的通用描述与子专家模型的详细镜头语言相结合。在人工注释的帮助下，SkyReels 单独训练了 SkyCaptioner-V1 的统一视频字幕器，以高效地标记视频数据。

其次，为基础视频生成建立了渐进分辨率预训练，随后进行四阶段的训练后增强：初始概念平衡的监督微调 (SFT) 提升基线质量；使用人工注释和合成失真数据进行运动特定强化学习 (RL) 训练解决动态伪影；扩散强制框架采用非递减噪声调度，可在高效的搜索空间中合成长视频；最终的高质量 SFT 可提升视觉保真度。

从技术上讲这么多，不如再演示几个 case 更直观，更能给大家带来冲击感。

1、30 s 长视频能力

提示词：

霸王龙怒吼后猛然冲向镜头，张口扑咬，巨大的身体掀翻树木，镜头剧烈晃动，模拟第一逃跑视角，穿越丛林，狂奔躲避追击，树枝划过镜头，恐惧与速度并存。

大家可以看看这个视频长达 30 s ，几乎没有什么瑕疵，稳定性很强，只是在树枝断裂的时候，有点小毛病，但是，相比于 30 s 的时间，已经很厉害了。

2、Skyreels 准确性非常高

给大家看一个更绝的，如果说恐龙的案例体现了稳定性，这个案例能体现 SkyReels-V2 模型动作的准确性。

我用 Skyreels 上的生图功能，先生成了一张手里拿着奶茶的美女。

提示词：一个漂亮的亚洲女孩，戴着眼镜，手里拿着奶茶，时尚的穿着打扮，站立在繁华的街头。

然后，我使用 Skyreels 的图生视频功能，让这个女孩将手里拿着的奶茶放到嘴里喝。

生成视频如下：

提示词：女孩拿起了手里的奶茶喝了起来。

非常精准的将吸管放到了嘴里，包括女孩喝奶茶嘴角的动作以及喝完奶茶之后嘴部以及表情的变化，既连贯又准确，展示的细节非常细腻。

再看个案例，同样的是我先用 Skyreels 上的生图功能，生成了一个漂亮的亚洲女孩。

然后将这张图片，进行图生视频，生成的视频如下：

提示词也很简单：转一圈来一个回眸一笑。

看视频，我们可以看出，确实转了一圈之后来了一个回眸一笑，这理解能力以及准确程度，是不是让人叹为观止？

3、创造性和丰富性

同时，为了表现 Skyreels 的创造力和完善力，我生成了一张美女图，故意把她腿上的一只手截取掉了，然后，使用图生视频功能，提示词：

用手撩拨自己的头发。

看生成的视频：

上面几个视频，我们展示了长视频能力、稳定性、准确度和丰富完善能力，其实，Skyreels 的创造性也体现在首帧图和尾帧图的完美转场，无缝衔接的能力。

比如，我用 Skyreels 生成了两张恐龙的图片。

提示词：一只凶猛的霸王龙，在森林之中，在河边奔跑，突然间转向，冲向镜头，张口扑咬

看生成的视频效果：

整体效果是不是非常好？到这里，我们已经看到了 Skyreels 的视频生成能力。

5s、10s、30s 长的视频都能够稳定地生成。

而除此之外，Skyreels 还支持对口型功能，我们使用 Skyreels 生成视频之后，可以选择视频，选择音色或者自己上传音频，帮你给视频精准对口型。

看我生成的拟人化小猫弹吉他唱歌的视频，配上了伍佰的歌曲。

大家可以去试一试。

对于一些小说或者影视剧的二创，用它会非常方便和高效，甚至如果你有想法，也可以用它做原创的短剧，以及一些产品的视频广告和展示，各类应用场景都可覆盖，在准确性、稳定性和理解力上确实很强。

以前的 AI 更像是 PPT 帧动画，玩命调整参数后勉强能拼接出作品，而 Skyreels 支持无限时长+连续生成，动作物理级真实，同时，能帮我们分镜和精准的理解各种专业术语。

大家赶紧去试一试吧。

地址：https://www.skyreels.ai

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

lmstudio-python：简化LLM操作的强大Python SDK

lmstudio-python 是一款功能强大的 Python SDK，旨在帮助开发者轻松地使用大型语言模型（LLM）进行文本生成、对话系统搭建以及其他相关应用。通过简单易用的API，lmstudio-python 能够让用户快速集成 LLM 功能，无论是进行基础文本补全还是复杂的对话系统设计。## 项目技术分析lmstudio-python SDK 以 Python 为基础，提供了一个同

火山引擎开发者社区

OBS Studio AI增强：智能场景识别与自动优化全攻略

你是否曾在直播切换场景时手忙脚乱？是否因复杂的参数配置而错失最佳直播时机？OBS Studio作为开源直播软件的佼佼者，虽提供强大的自定义功能，但传统手动操作已难以满足专业创作者对效率和质量的双重需求。本文将系统介绍如何通过AI技术增强OBS Studio的核心能力，重点实现智能场景识别与自动参数优化，让你的直播制作流程效率提升300%。读完本文你将获得：- 基于OpenCV的实时场景分析插