Day1/5:SkyReels-A3——形随声动,让数字人“说话”的魔法

8月11日,昆仑万维正式发布SkyReels-A3模型,基于“DiT(Diffusion Transformer)视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”,其能实现任意时长的全模态音频驱动数字人创作。

当前SkyReels-A3模型已上线,欢迎登录SkyReels官网体验:

地址
SkyReels-A3项目主页:

https://skyworkai.github.io/skyreels-a3.github.io/

SkyReels 官网地址(登录后在左侧导航栏中选择Talking Avatar工具):

https://www.skyreels.ai/home

SkyReels系列开源模型地址:

https://huggingface.co/Skywork

作为音频驱动(audio-driven)人像视频生成模型,SkyReels-A3就像给任意照片或视频装上“AI声带”:

SkyReels-A3
  • 让一张照片“活”起来:上传一张人像图片,再配段语音,照片里的人就能按这段语音开口说话或唱歌;
  • 创作一段新的视频:上传一张人像图片、配段语音,再给出文字prompt,照片里的人就能按照要求的状态进行表演;
  • 给现有视频“改台词”:可以将原视频的音频换掉,人物会自动对上新的口型、表情和表演,画面依旧连贯。

SkyReels-A3模型在以下四个方向上为用户带来新体验:

  1. Text Prompt(文本提示词输入)支持画面变化;
  2. 更自然的动作交互,包括和商品的交互、说话时的手部动作等;
  3. 运镜的运用和控制更高级,让艺术场景如音乐/MV等拥有更高的艺术美感;
  4. 可以生成单分镜分钟级别视频,支持长达60秒的输出;多分镜可以支持无限时长。

例如我们输入以下图片、音频和prompt,等待几秒之后,SkyReels-A3即可生成口型、表情、动作都自然同步的视频。

原创文章,作者:feiniu,如若转载,请注明出处:https://www.lrblog.cn/340.html

(0)
上一篇 2025年8月11日 上午9:35
下一篇 2025年8月12日 上午8:58

相关推荐