刚刚!AI 视频生成模型领域,又发生了一件大事。

昆仑万维开源全球首款支持无限时长的高质量电影生成模型 Skyreels-V2,支持用户自定义时长,赋能长镜头表现,稳坐开源SOTA。

开源地址:https://github.com/SkyworkAI/SkyReels-V2

官网地址:https://www.skyreels.ai/home

目前我们可以在 Skyreels 平台上体验。

早在去年8月,这款集成了视频大模型与 3D 模型,一键生成完整剧本、分镜、人物对白与背景音乐,支持角色形象、音色与分镜自定义调整的 AI 短剧产品突然爆火,当时整个AI视频行业还很青涩,主打 AI 短剧的skyreels 借助短剧潮流一炮而红,与昆仑万维目前如火如荼的短剧业务形成高度闭环,备受瞩目。

时隔半年,不仅skyreels系列视频模型成为全球开源SOTA,产品端同样提供了极具竞争力的视频功能和应用场景:

1、全球唯一长视频能力:单镜头30s一键生成,且支持无限时长连续生成,对比友商的5 - 10秒有极大优势。

2、分镜准确度极高:能根据提示词的复杂度,内置「影视专家大脑」,秒懂专业指令,自动分镜,跟随准确率91%,远远高于主流模型。

3、王家卫电影级画质:有好莱坞质感画风,720p高清画质细节逼真度提升35%。

我们可以先看一下我跑的 case ,效果确实不容小觑。

看这个视频,你就能看出效果非常好,孩子在荡秋千的时候,阳光下和树荫下不同的光暗对比,非常符合物理真实世界效果。

10 秒的视频已经很常见了,没有什么难度,长视频才能彰显技术实力,我们再来看下几个 skyreels 生成的 30 秒的视频:

是不是非常稳定呢?作品的效果离不开模型创新,目前视频生成领域的最新进展得益于扩散模型和自回归框架,然而,在协调即时性、视觉质量、运动动态和时长方面依然存在一些问题和限制。

比如,市面上大多数的视频生成模型为了提升视觉质量而牺牲运动动态;为了优先考虑分辨率而限制视频时长(5-10 秒);以及由于通用多模态语言模型 (MLLM) 无法解读电影语法(例如镜头构图、演员表情和摄像机运动)而导致的镜头感知生成不足。这些问题结合在一起,限制阻碍了逼真的长篇合成和专业的电影风格生成。

而 SkyReels-V2 模型在这些方面取得了很大的创新突破,作为一个无限时长影片生成模型,协同多模态大型语言模型 (MLLM)、多阶段预训练、强化学习和扩散强制框架。

首先,设计了一个全面的视频结构化表示,将多模态 LLM 的通用描述与子专家模型的详细镜头语言相结合。在人工注释的帮助下,SkyReels 单独训练了 SkyCaptioner-V1 的统一视频字幕器,以高效地标记视频数据。

其次,为基础视频生成建立了渐进分辨率预训练,随后进行四阶段的训练后增强:初始概念平衡的监督微调 (SFT) 提升基线质量;使用人工注释和合成失真数据进行运动特定强化学习 (RL) 训练解决动态伪影;扩散强制框架采用非递减噪声调度,可在高效的搜索空间中合成长视频;最终的高质量 SFT 可提升视觉保真度。

从技术上讲这么多,不如再演示几个 case 更直观,更能给大家带来冲击感。

1、30 s 长视频能力

提示词:

霸王龙怒吼后猛然冲向镜头,张口扑咬,巨大的身体掀翻树木,镜头剧烈晃动,模拟第一逃跑视角,穿越丛林,狂奔躲避追击,树枝划过镜头,恐惧与速度并存。

大家可以看看这个视频长达 30 s ,几乎没有什么瑕疵,稳定性很强,只是在树枝断裂的时候,有点小毛病,但是,相比于 30 s 的时间,已经很厉害了。

2、Skyreels 准确性非常高

给大家看一个更绝的,如果说恐龙的案例体现了稳定性,这个案例能体现 SkyReels-V2 模型动作的准确性。

我用 Skyreels 上的生图功能,先生成了一张手里拿着奶茶的美女。

提示词:一个漂亮的亚洲女孩,戴着眼镜,手里拿着奶茶,时尚的穿着打扮,站立在繁华的街头。

然后,我使用 Skyreels 的图生视频功能,让这个女孩将手里拿着的奶茶放到嘴里喝。

生成视频如下:

提示词:女孩拿起了手里的奶茶喝了起来。

非常精准的将吸管放到了嘴里,包括女孩喝奶茶嘴角的动作以及喝完奶茶之后嘴部以及表情的变化,既连贯又准确,展示的细节非常细腻。

再看个案例,同样的是我先用 Skyreels 上的生图功能,生成了一个漂亮的亚洲女孩。

然后将这张图片,进行图生视频,生成的视频如下:

提示词也很简单:转一圈来一个回眸一笑。

看视频,我们可以看出,确实转了一圈之后来了一个回眸一笑,这理解能力以及准确程度,是不是让人叹为观止?

3、创造性和丰富性

同时,为了表现 Skyreels 的创造力和完善力,我生成了一张美女图,故意把她腿上的一只手截取掉了,然后,使用图生视频功能,提示词:

用手撩拨自己的头发。

看生成的视频:

上面几个视频,我们展示了长视频能力、稳定性、准确度和丰富完善能力,其实,Skyreels 的创造性也体现在首帧图和尾帧图的完美转场,无缝衔接的能力。

比如,我用 Skyreels 生成了两张恐龙的图片。

提示词:一只凶猛的霸王龙,在森林之中,在河边奔跑,突然间转向,冲向镜头,张口扑咬

看生成的视频效果:

整体效果是不是非常好?到这里,我们已经看到了 Skyreels 的视频生成能力。

5s、10s、30s 长的视频都能够稳定地生成。

而除此之外,Skyreels 还支持对口型功能,我们使用 Skyreels 生成视频之后,可以选择视频,选择音色或者自己上传音频,帮你给视频精准对口型。

看我生成的拟人化小猫弹吉他唱歌的视频,配上了伍佰的歌曲。

大家可以去试一试。

对于一些小说或者影视剧的二创,用它会非常方便和高效,甚至如果你有想法,也可以用它做原创的短剧,以及一些产品的视频广告和展示,各类应用场景都可覆盖,在准确性、稳定性和理解力上确实很强。

以前的 AI 更像是 PPT 帧动画,玩命调整参数后勉强能拼接出作品,而 Skyreels 支持无限时长+连续生成,动作物理级真实,同时,能帮我们分镜和精准的理解各种专业术语。

大家赶紧去试一试吧。

地址:https://www.skyreels.ai

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐