Wan2.2
扫码查看

具备电影级效果的开源视频生成模型

Wan2.2

综合介绍

Wan2.2 是由阿里巴巴通义实验室研发的开源视频生成模型,在其先前版本的基础上进行了重大升级。该模型的核心创新在于首次将混合专家(MoE)架构引入视频扩散模型中,通过两个各约14B参数的专家模型(一个处理高噪声阶段的整体布局,一个处理低噪声阶段的视频细节)在不增加推理计算成本的前提下,有效提升了模型性能和视频生成质量。为了实现电影级的审美控制,Wan2.2在训练中使用了带有光照、构图、色调等精细化标签的美学数据,让用户能生成风格可控的视频。同时,模型训练数据量大幅增加(图像增加65.6%,视频增加83.2%),显著增强了对复杂动作和语义的理解能力。此外,项目还开源了一个高效的5B参数混合模型(TI2V-5B),该模型采用压缩比高达16×16×4的先进VAE(变分自编码器),支持在消费级显卡(如RTX 4090)上运行,能生成720P@24fps的视频,是目前速度最快的同规格开源模型之一。

功能列表

  • 混合专家(MoE)架构:内置两个专家模型,分别处理视频去噪的早期和晚期阶段,在不增加推理成本的情况下,显著提升了视频的整体布局感和细节精致度。
  • 文生视频(Text-to-Video):基于T2V-A14B模型,输入文本描述,可直接生成480P或720P分辨率的视频。
  • 图生视频(Image-to-Video):基于I2V-A14B模型,输入一张图片作为参考,结合文本描述或让模型自动理解图片内容,生成动态视频。支持480P和720P分辨率。
  • 高效图文生视频(TI2V):由一个5B参数的统一模型支持,结合了高压缩率的VAE技术,可以在消费级显卡上高效生成720P@24fps的视频,同时支持文生视频和图生视频两种模式。
  • 电影级美学控制:通过在提示词中加入光照、构图、色调等描述,可以对生成视频的视觉风格进行更精确的控制。
  • 提示词扩展:支持集成外部大语言模型(如阿里云的Dashscope API或本地Qwen模型)来优化和丰富输入的文本提示,从而生成细节更丰富的视频。
  • 图生视频(无提示词):在图生视频模式下,可以不提供任何文本提示,模型将自动分析输入图片的内容,并生成相应的动态视频。
  • 多GPU推理:支持使用PyTorch FSDPDeepSpeed Ulysses等技术进行多GPU加速,以处理更大规模的模型和更高分辨率的视频生成任务。
  • 社区集成支持:已被集成到多个主流工作流工具中,包括ComfyUIDiffusers以及DiffSynth-Studio,方便不同习惯的用户使用。

使用帮助

Wan2.2是一个基于命令行的工具,用户需要在本地配置好Python环境后,通过在终端输入命令来使用。

1. 环境安装

首先,将项目代码克隆到本地:

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

然后,安装所有必需的依赖库。官方要求PyTorch版本不低于2.4.0。如果flash_attn安装失败,可以先安装其他库,最后再单独处理它。

pip install -r requirements.txt

2. 模型下载

Wan2.2提供了三种核心模型,您需要根据需求下载。

模型 下载渠道 描述
T2V-A14B 🤗 Huggingface 🤖 ModelScope 文生视频MoE模型, 支持480P和720P
I2V-A14B 🤗 Huggingface 🤖 ModelScope 图生视频MoE模型, 支持480P和720P
TI2V-5B 🤗 Huggingface 🤖 ModelScope 高压缩VAE,图文生视频统一模型, 支持720P@24fps

您可以使用huggingface-climodelscope-cli进行下载,以T2V模型为例:

# 使用 Hugging Face
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B
# 或者使用 ModelScope
modelscope download Wan-AI/Wan2.2-T2V-A14B --local_dir ./Wan2.2-T2V-A14B

3. 功能操作流程

以下是各项功能的具体操作命令。

文本生成视频 (Text-to-Video)

使用T2V-A14B模型。

  • 单GPU推理 (至少80GB显存)
    python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --prompt "两只拟人化的猫,穿着舒适的拳击装备和明亮的拳击手套,在聚光灯下的舞台上激烈地打斗。"
    

    💡 如果遇到显存不足(OOM)问题,可以添加--offload_model True--convert_model_dtype--t5_cpu这三个参数来将部分计算卸载到CPU,以减少GPU显存占用。

  • 多GPU推理
    torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "一只猫在打拳击"
    

图像生成视频 (Image-to-Video)

使用I2V-A14B模型。

  • 单GPU推理 (至少80GB显存)
    python generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --image examples/i2v_input.JPG --prompt "夏日沙滩度假风,一只戴着墨镜的白猫坐在冲浪板上。"
    

    💡 在图生视频任务中,size参数代表生成视频的总像素面积,视频的宽高比将自动与输入的图片保持一致。

  • 无提示词的图像生成视频模型可以仅根据输入的图像内容生成视频。此时,建议启用提示词扩展,让模型先从图像中生成描述。
    DASH_API_KEY=your_key torchrun --nproc_per_node=8 generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --prompt '' --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --use_prompt_extend --prompt_extend_method 'dashscope'
    

高效图文生成视频

使用TI2V-5B模型,该模型非常适合在消费级显卡上运行。

  • 单GPU推理 (至少24GB显存,如RTX 4090)
    # 文生视频
    python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "两只拟人化的猫在打拳击"
    # 图生视频
    python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "戴墨镜的白猫坐在冲浪板上"
    

    💡 注意:此模型的720P分辨率为1280*704704*1280。如果提供了--image参数,则执行图生视频任务;否则默认为文生视频任务。

4. 使用提示词扩展增强效果

为让视频细节更丰富,建议启用此功能。

  • 使用Dashscope API:需要先申请api_key
    DASH_API_KEY=your_key torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --prompt "一只猫在打拳击" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'
    
  • 使用本地模型:默认使用HuggingFace上的Qwen模型。
    torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --prompt "一只猫在打拳击" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_model Qwen/Qwen2.5-7B-Instruct
    

5. 不同GPU的计算效率

官方提供了在不同GPU配置下生成5秒视频的性能测试结果,格式为“总时间(秒) / 峰值GPU内存(GB)”。

  • TI2V-5B (720P)
    • 单张RTX 4090 (24GB):约 535.1秒 / 22.2GB
    • 单张H100 (80GB):约 221.4秒 / 25.1GB
    • 8卡 H100:约 36.4秒 / 24.8GB
  • T2V-A14B (720P)
    • 单张H100 (80GB):约 561.4秒 / 74.5GB
    • 8卡 H100:约 76.5秒 / 73.1GB

这些数据表明,TI2V-5B模型在消费级显卡上实现了高效运行,而A14B模型则需要专业级硬件支持。

应用场景

  1. 短视频内容创作创作者可以利用Wan2.2将文字脚本或单张概念图快速转化为动态视频。例如,输入“一个男孩在森林里,阳光穿过树叶,形成光晕”,即可生成具有电影感的“森林男孩”场景,极大地降低了视频制作的门槛。
  2. 广告与营销内容制作企业可以为产品快速生成生动的广告视频。例如,输入一张产品图片,并描述“产品在霓虹灯下的城市雨夜中穿梭”,即可生成充满动感的广告片段,用于社交媒体推广或创意构思。
  3. 复杂动态场景模拟对于需要表现复杂或高难度动作的场景,如“一群舞者在街头表演嘻哈舞蹈”或“滑板运动员在城市障碍中穿梭”,Wan2.2能够生成流畅且动作连贯的视频,可用于体育分析、影视预览等。
  4. 艺术与实验性影像探索艺术家可以输入抽象的描述,如“水彩风格的墨水在纸上散开,形成一座小岛,一艘纸船漂向岛屿”,来创造具有独特美学风格的视觉艺术作品。

QA

  1. Wan2.2对电脑硬件有什么要求?
    • TI2V-5B模型:推荐使用至少有24GB显存的独立显卡,如NVIDIA RTX 3090或RTX 4090。
    • T2V/I2V-A14B模型:需要专业级硬件,推荐使用至少80GB显存的显卡,如NVIDIA A100或H100。普通家用电脑的集成显卡无法运行。
  2. 什么是混合专家(MoE)架构,它有什么作用?这是一种高效的模型设计。在Wan2.2中,它由两个功能不同的专家模型组成:一个“高噪声专家”,在生成视频的初始阶段负责构建整体结构和动态;另一个“低噪声专家”,在后期负责精炼画面的细节和质感。这种分工合作的方式,可以在不增加实际计算量的情况下,让模型的总参数量变得更大,从而提升最终视频的质量。
  3. 生成视频可以用于商业用途吗?可以。该项目采用Apache 2.0许可证,允许商业使用。官方声明对用户生成的内容不主张任何权利,但使用者必须对自己生成的内容负责,确保其符合法律法规,不能用于任何非法或有害的用途。
  4. 我输入的中文提示词效果不佳怎么办?强烈建议启用提示词扩展功能。通过在命令中加入--use_prompt_extend--prompt_extend_target_lang 'zh'参数,系统可以调用一个更强大的大语言模型(如Qwen)来将您的中文短句优化、翻译并扩展为模型更擅长理解的、细节丰富的英文长描述,从而显著提升生成视频的质量。
微信微博Email复制链接