alibaba-pai

123 models • 8 total models in database

Sort by:

Wan2.2-VACE-Fun-A14B

[](https://huggingface.co/spaces/alibaba-pai/Wan2.1-Fun-1.3B-InP) | 名称 | 存储空间 | Hugging Face | Model Scope | 描述 | |--|--|--|--|--| | Wan2.2-Fun-A14B-InP | 64.0 GB | 🤗Link | 😄Link | Wan2.2-Fun-14B文图生视频权重，以多分辨率训练，支持首尾图预测。 | | Wan2.2-Fun-A14B-Control | 64.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-14B视频控制权重，支持不同的控制条件，如Canny、Depth、Pose、MLSD等，同时支持使用轨迹控制。支持多分辨率（512，768，1024）的视频预测，支持多分辨率（512，768，1024）的视频预测，以81帧、每秒16帧进行训练，支持多语言预测 | | Wan2.2-Fun-A14B-Control-Camera | 64.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-14B相机镜头控制权重。支持多分辨率（512，768，1024）的视频预测，支持多分辨率（512，768，1024）的视频预测，以81帧、每秒16帧进行训练，支持多语言预测 | | Wan2.2-VACE-Fun-A14B | 64.0 GB | 🤗Link | 😄Link| 以VACE方案训练的Wan2.2控制权重，基础模型为Wan2.2-T2V-A14B，支持不同的控制条件，如Canny、Depth、Pose、MLSD、轨迹控制等。支持通过主体指定生视频。支持多分辨率（512，768，1024）的视频预测，支持多分辨率（512，768，1024）的视频预测，以81帧、每秒16帧进行训练，支持多语言预测 | Generic Control Video (Canny, Pose, Depth, etc.) and Trajectory Control: 快速启动 1. 云使用: AliyunDSW/Docker a. 通过阿里云 DSW DSW 有免费 GPU 时间，用户可申请一次，申请后3个月内有效。阿里云在Freetier提供免费GPU时间，获取并在阿里云PAI-DSW中使用，5分钟内即可启动CogVideoX-Fun。 [](https://gallery.pai-ml.com/#/preview/deepLearning/cv/cogvideoxfun) c. 通过docker 使用docker的情况下，请保证机器中已经正确安装显卡驱动与CUDA环境，然后以此执行以下命令： Windows 的详细信息： - 操作系统 Windows 10 - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU： Nvidia-3060 12G & Nvidia-3090 24G Linux 的详细信息： - 操作系统 Ubuntu 20.04, CentOS - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU：Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G 通过comfyui：将模型放入Comfyui的权重文件夹`ComfyUI/models/FunModels/`： a、显存节省方案由于Wan2.2的参数非常大，我们需要考虑显存节省方案，以节省显存适应消费级显卡。我们给每个预测文件都提供了GPUmemorymode，可以在modelcpuoffload，modelcpuoffloadandqfloat8，sequentialcpuoffload中进行选择。该方案同样适用于CogVideoX-Fun的生成。 - modelcpuoffload代表整个模型在使用后会进入cpu，可以节省部分显存。 - modelcpuoffloadandqfloat8代表整个模型在使用后会进入cpu，并且对transformer模型进行了float8的量化，可以节省更多的显存。 - sequentialcpuoffload代表模型的每一层在使用后会进入cpu，速度较慢，节省大量显存。 qfloat8会部分降低模型的性能，但可以节省更多的显存。如果显存足够，推荐使用modelcpuoffload。 c、运行python文件 - 步骤1：下载对应权重放入models文件夹。 - 步骤2：根据不同的权重与预测目标使用不同的文件进行预测。当前该库支持CogVideoX-Fun、Wan2.1、Wan2.1-Fun、Wan2.2，在examples文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以CogVideoX-Fun为例。 - 文生视频： - 使用examples/cogvideoxfun/predictt2v.py文件中修改prompt、negprompt、guidancescale和seed。 - 而后运行examples/cogvideoxfun/predictt2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videos文件夹中。 - 图生视频： - 使用examples/cogvideoxfun/predicti2v.py文件中修改validationimagestart、validationimageend、prompt、negprompt、guidancescale和seed。 - validationimagestart是视频的开始图片，validationimageend是视频的结尾图片。 - 而后运行examples/cogvideoxfun/predicti2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosi2v文件夹中。 - 视频生视频： - 使用examples/cogvideoxfun/predictv2v.py文件中修改validationvideo、validationimageend、prompt、negprompt、guidancescale和seed。 - validationvideo是视频生视频的参考视频。您可以使用以下视频运行演示：演示视频 - 而后运行examples/cogvideoxfun/predictv2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosv2v文件夹中。 - 普通控制生视频（Canny、Pose、Depth等）： - 使用examples/cogvideoxfun/predictv2vcontrol.py文件中修改controlvideo、validationimageend、prompt、negprompt、guidancescale和seed。 - controlvideo是控制生视频的控制视频，是使用Canny、Pose、Depth等算子提取后的视频。您可以使用以下视频运行演示：演示视频 - 而后运行examples/cogvideoxfun/predictv2vcontrol.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosv2vcontrol文件夹中。 - 步骤3：如果想结合自己训练的其他backbone与Lora，则看情况修改examples/{modelname}/predictt2v.py中的examples/{modelname}/predicti2v.py和lorapath。 webui支持文生视频、图生视频、视频生视频和普通控制生视频（Canny、Pose、Depth等）。在examples文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以CogVideoX-Fun为例。 - 步骤1：下载对应权重放入models文件夹。 - 步骤2：运行examples/cogvideoxfun/app.py文件，进入gradio页面。 - 步骤3：根据页面选择生成模型，填入prompt、negprompt、guidancescale和seed等，点击生成，等待生成结果，结果保存在sample文件夹中。参考文献 - CogVideo: https://github.com/THUDM/CogVideo/ - EasyAnimate: https://github.com/aigc-apps/EasyAnimate - Wan2.1: https://github.com/Wan-Video/Wan2.1/ - Wan2.2: https://github.com/Wan-Video/Wan2.2/ - ComfyUI-KJNodes: https://github.com/kijai/ComfyUI-KJNodes - ComfyUI-EasyAnimateWrapper: https://github.com/kijai/ComfyUI-EasyAnimateWrapper - ComfyUI-CameraCtrl-Wrapper: https://github.com/chaojie/ComfyUI-CameraCtrl-Wrapper - CameraCtrl: https://github.com/hehao13/CameraCtrl - VACE: https://github.com/ali-vilab/VACE

NaNK

license:apache-2.0

135

Wan2.2-Fun-A14B-InP

[](https://huggingface.co/spaces/alibaba-pai/Wan2.1-Fun-1.3B-InP) | 名称 | 存储空间 | Hugging Face | Model Scope | 描述 | |--|--|--|--|--| | Wan2.2-Fun-A14B-InP | 47.0 GB | 🤗Link | 😄Link | Wan2.2-Fun-14B文图生视频权重，以多分辨率训练，支持首尾图预测。 | | Wan2.2-Fun-A14B-Control | 47.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-14B视频控制权重，支持不同的控制条件，如Canny、Depth、Pose、MLSD等，同时支持使用轨迹控制。支持多分辨率（512，768，1024）的视频预测，支持多分辨率（512，768，1024）的视频预测，以81帧、每秒16帧进行训练，支持多语言预测 | Generic Control Video (Canny, Pose, Depth, etc.) and Trajectory Control: 快速启动 1. 云使用: AliyunDSW/Docker a. 通过阿里云 DSW DSW 有免费 GPU 时间，用户可申请一次，申请后3个月内有效。阿里云在Freetier提供免费GPU时间，获取并在阿里云PAI-DSW中使用，5分钟内即可启动CogVideoX-Fun。 [](https://gallery.pai-ml.com/#/preview/deepLearning/cv/cogvideoxfun) c. 通过docker 使用docker的情况下，请保证机器中已经正确安装显卡驱动与CUDA环境，然后以此执行以下命令： Windows 的详细信息： - 操作系统 Windows 10 - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU： Nvidia-3060 12G & Nvidia-3090 24G Linux 的详细信息： - 操作系统 Ubuntu 20.04, CentOS - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU：Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G 通过comfyui：将模型放入Comfyui的权重文件夹`ComfyUI/models/FunModels/`： a、显存节省方案由于Wan2.2的参数非常大，我们需要考虑显存节省方案，以节省显存适应消费级显卡。我们给每个预测文件都提供了GPUmemorymode，可以在modelcpuoffload，modelcpuoffloadandqfloat8，sequentialcpuoffload中进行选择。该方案同样适用于CogVideoX-Fun的生成。 - modelcpuoffload代表整个模型在使用后会进入cpu，可以节省部分显存。 - modelcpuoffloadandqfloat8代表整个模型在使用后会进入cpu，并且对transformer模型进行了float8的量化，可以节省更多的显存。 - sequentialcpuoffload代表模型的每一层在使用后会进入cpu，速度较慢，节省大量显存。 qfloat8会部分降低模型的性能，但可以节省更多的显存。如果显存足够，推荐使用modelcpuoffload。 c、运行python文件 - 步骤1：下载对应权重放入models文件夹。 - 步骤2：根据不同的权重与预测目标使用不同的文件进行预测。当前该库支持CogVideoX-Fun、Wan2.1、Wan2.1-Fun、Wan2.2，在examples文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以CogVideoX-Fun为例。 - 文生视频： - 使用examples/cogvideoxfun/predictt2v.py文件中修改prompt、negprompt、guidancescale和seed。 - 而后运行examples/cogvideoxfun/predictt2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videos文件夹中。 - 图生视频： - 使用examples/cogvideoxfun/predicti2v.py文件中修改validationimagestart、validationimageend、prompt、negprompt、guidancescale和seed。 - validationimagestart是视频的开始图片，validationimageend是视频的结尾图片。 - 而后运行examples/cogvideoxfun/predicti2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosi2v文件夹中。 - 视频生视频： - 使用examples/cogvideoxfun/predictv2v.py文件中修改validationvideo、validationimageend、prompt、negprompt、guidancescale和seed。 - validationvideo是视频生视频的参考视频。您可以使用以下视频运行演示：演示视频 - 而后运行examples/cogvideoxfun/predictv2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosv2v文件夹中。 - 普通控制生视频（Canny、Pose、Depth等）： - 使用examples/cogvideoxfun/predictv2vcontrol.py文件中修改controlvideo、validationimageend、prompt、negprompt、guidancescale和seed。 - controlvideo是控制生视频的控制视频，是使用Canny、Pose、Depth等算子提取后的视频。您可以使用以下视频运行演示：演示视频 - 而后运行examples/cogvideoxfun/predictv2vcontrol.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosv2vcontrol文件夹中。 - 步骤3：如果想结合自己训练的其他backbone与Lora，则看情况修改examples/{modelname}/predictt2v.py中的examples/{modelname}/predicti2v.py和lorapath。 webui支持文生视频、图生视频、视频生视频和普通控制生视频（Canny、Pose、Depth等）。在examples文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以CogVideoX-Fun为例。 - 步骤1：下载对应权重放入models文件夹。 - 步骤2：运行examples/cogvideoxfun/app.py文件，进入gradio页面。 - 步骤3：根据页面选择生成模型，填入prompt、negprompt、guidancescale和seed等，点击生成，等待生成结果，结果保存在sample文件夹中。参考文献 - CogVideo: https://github.com/THUDM/CogVideo/ - EasyAnimate: https://github.com/aigc-apps/EasyAnimate - Wan2.1: https://github.com/Wan-Video/Wan2.1/ - Wan2.1: https://github.com/Wan-Video/Wan2.2/ - ComfyUI-KJNodes: https://github.com/kijai/ComfyUI-KJNodes - ComfyUI-EasyAnimateWrapper: https://github.com/kijai/ComfyUI-EasyAnimateWrapper - ComfyUI-CameraCtrl-Wrapper: https://github.com/chaojie/ComfyUI-CameraCtrl-Wrapper - CameraCtrl: https://github.com/hehao13/CameraCtrl

NaNK

license:apache-2.0

113

Wan2.1-Fun-V1.1-14B-Control

NaNK

license:apache-2.0

Wan2.1-Fun-V1.1-14B-InP

NaNK

license:apache-2.0

EasyAnimateV5.1-12b-zh

NaNK

license:apache-2.0

CogVideoX-Fun-V1.5-5b-InP

NaNK

—

DistilQwen2.5-0.5B-Instruct

NaNK

—

Wan2.1-Fun-V1.1-1.3B-Control

NaNK

license:apache-2.0

Wan2.2-Fun-A14B-Control-Camera

[](https://huggingface.co/spaces/alibaba-pai/Wan2.1-Fun-1.3B-InP) | 名称 | 存储空间 | Hugging Face | Model Scope | 描述 | |--|--|--|--|--| | Wan2.2-Fun-A14B-InP | 64.0 GB | 🤗Link | 😄Link | Wan2.2-Fun-14B文图生视频权重，以多分辨率训练，支持首尾图预测。 | | Wan2.2-Fun-A14B-Control | 64.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-14B视频控制权重，支持不同的控制条件，如Canny、Depth、Pose、MLSD等，同时支持使用轨迹控制。支持多分辨率（512，768，1024）的视频预测，支持多分辨率（512，768，1024）的视频预测，以81帧、每秒16帧进行训练，支持多语言预测 | | Wan2.2-Fun-A14B-Control-Camera | 64.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-14B相机镜头控制权重。支持多分辨率（512，768，1024）的视频预测，支持多分辨率（512，768，1024）的视频预测，以81帧、每秒16帧进行训练，支持多语言预测 | Generic Control Video (Canny, Pose, Depth, etc.) and Trajectory Control: 快速启动 1. 云使用: AliyunDSW/Docker a. 通过阿里云 DSW DSW 有免费 GPU 时间，用户可申请一次，申请后3个月内有效。阿里云在Freetier提供免费GPU时间，获取并在阿里云PAI-DSW中使用，5分钟内即可启动CogVideoX-Fun。 [](https://gallery.pai-ml.com/#/preview/deepLearning/cv/cogvideoxfun) c. 通过docker 使用docker的情况下，请保证机器中已经正确安装显卡驱动与CUDA环境，然后以此执行以下命令： Windows 的详细信息： - 操作系统 Windows 10 - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU： Nvidia-3060 12G & Nvidia-3090 24G Linux 的详细信息： - 操作系统 Ubuntu 20.04, CentOS - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU：Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G 通过comfyui：将模型放入Comfyui的权重文件夹`ComfyUI/models/FunModels/`： a、显存节省方案由于Wan2.2的参数非常大，我们需要考虑显存节省方案，以节省显存适应消费级显卡。我们给每个预测文件都提供了GPUmemorymode，可以在modelcpuoffload，modelcpuoffloadandqfloat8，sequentialcpuoffload中进行选择。该方案同样适用于CogVideoX-Fun的生成。 - modelcpuoffload代表整个模型在使用后会进入cpu，可以节省部分显存。 - modelcpuoffloadandqfloat8代表整个模型在使用后会进入cpu，并且对transformer模型进行了float8的量化，可以节省更多的显存。 - sequentialcpuoffload代表模型的每一层在使用后会进入cpu，速度较慢，节省大量显存。 qfloat8会部分降低模型的性能，但可以节省更多的显存。如果显存足够，推荐使用modelcpuoffload。 c、运行python文件 - 步骤1：下载对应权重放入models文件夹。 - 步骤2：根据不同的权重与预测目标使用不同的文件进行预测。当前该库支持CogVideoX-Fun、Wan2.1、Wan2.1-Fun、Wan2.2，在examples文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以CogVideoX-Fun为例。 - 文生视频： - 使用examples/cogvideoxfun/predictt2v.py文件中修改prompt、negprompt、guidancescale和seed。 - 而后运行examples/cogvideoxfun/predictt2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videos文件夹中。 - 图生视频： - 使用examples/cogvideoxfun/predicti2v.py文件中修改validationimagestart、validationimageend、prompt、negprompt、guidancescale和seed。 - validationimagestart是视频的开始图片，validationimageend是视频的结尾图片。 - 而后运行examples/cogvideoxfun/predicti2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosi2v文件夹中。 - 视频生视频： - 使用examples/cogvideoxfun/predictv2v.py文件中修改validationvideo、validationimageend、prompt、negprompt、guidancescale和seed。 - validationvideo是视频生视频的参考视频。您可以使用以下视频运行演示：演示视频 - 而后运行examples/cogvideoxfun/predictv2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosv2v文件夹中。 - 普通控制生视频（Canny、Pose、Depth等）： - 使用examples/cogvideoxfun/predictv2vcontrol.py文件中修改controlvideo、validationimageend、prompt、negprompt、guidancescale和seed。 - controlvideo是控制生视频的控制视频，是使用Canny、Pose、Depth等算子提取后的视频。您可以使用以下视频运行演示：演示视频 - 而后运行examples/cogvideoxfun/predictv2vcontrol.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosv2vcontrol文件夹中。 - 步骤3：如果想结合自己训练的其他backbone与Lora，则看情况修改examples/{modelname}/predictt2v.py中的examples/{modelname}/predicti2v.py和lorapath。 webui支持文生视频、图生视频、视频生视频和普通控制生视频（Canny、Pose、Depth等）。在examples文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以CogVideoX-Fun为例。 - 步骤1：下载对应权重放入models文件夹。 - 步骤2：运行examples/cogvideoxfun/app.py文件，进入gradio页面。 - 步骤3：根据页面选择生成模型，填入prompt、negprompt、guidancescale和seed等，点击生成，等待生成结果，结果保存在sample文件夹中。参考文献 - CogVideo: https://github.com/THUDM/CogVideo/ - EasyAnimate: https://github.com/aigc-apps/EasyAnimate - Wan2.1: https://github.com/Wan-Video/Wan2.1/ - Wan2.1: https://github.com/Wan-Video/Wan2.2/ - ComfyUI-KJNodes: https://github.com/kijai/ComfyUI-KJNodes - ComfyUI-EasyAnimateWrapper: https://github.com/kijai/ComfyUI-EasyAnimateWrapper - ComfyUI-CameraCtrl-Wrapper: https://github.com/chaojie/ComfyUI-CameraCtrl-Wrapper - CameraCtrl: https://github.com/hehao13/CameraCtrl

NaNK

license:apache-2.0

Wan2.2-Fun-5B-Control

[](https://huggingface.co/spaces/alibaba-pai/Wan2.1-Fun-1.3B-InP) | 名称 | 存储空间 | Hugging Face | Model Scope | 描述 | |--|--|--|--|--| | Wan2.2-Fun-A14B-InP | 64.0 GB | 🤗Link | 😄Link | Wan2.2-Fun-14B文图生视频权重，以多分辨率训练，支持首尾图预测。 | | Wan2.2-Fun-A14B-Control | 64.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-14B视频控制权重，支持不同的控制条件，如Canny、Depth、Pose、MLSD等，同时支持使用轨迹控制。支持多分辨率（512，768，1024）的视频预测，，以81帧、每秒16帧进行训练，支持多语言预测 | | Wan2.2-Fun-A14B-Control-Camera | 64.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-14B相机镜头控制权重。支持多分辨率（512，768，1024）的视频预测，，以81帧、每秒16帧进行训练，支持多语言预测 | | Wan2.2-Fun-5B-InP | 23.0 GB | 🤗Link | 😄Link | Wan2.2-Fun-5B文图生视频权重，以121帧、每秒24帧进行训练支持首尾图预测。 | | Wan2.2-Fun-5B-Control | 23.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-5B视频控制权重，支持不同的控制条件，如Canny、Depth、Pose、MLSD等，同时支持使用轨迹控制。以121帧、每秒24帧进行训练，支持多语言预测 | | Wan2.2-Fun-5B-Control-Camera | 23.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-5B相机镜头控制权重。以121帧、每秒24帧进行训练，支持多语言预测 | Generic Control Video (Canny, Pose, Depth, etc.) and Trajectory Control: 快速启动 1. 云使用: AliyunDSW/Docker a. 通过阿里云 DSW DSW 有免费 GPU 时间，用户可申请一次，申请后3个月内有效。阿里云在Freetier提供免费GPU时间，获取并在阿里云PAI-DSW中使用，5分钟内即可启动CogVideoX-Fun。 [](https://gallery.pai-ml.com/#/preview/deepLearning/cv/cogvideoxfun) c. 通过docker 使用docker的情况下，请保证机器中已经正确安装显卡驱动与CUDA环境，然后以此执行以下命令： Windows 的详细信息： - 操作系统 Windows 10 - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU： Nvidia-3060 12G & Nvidia-3090 24G Linux 的详细信息： - 操作系统 Ubuntu 20.04, CentOS - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU：Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G 通过comfyui：将模型放入Comfyui的权重文件夹`ComfyUI/models/FunModels/`： a、显存节省方案由于Wan2.2的参数非常大，我们需要考虑显存节省方案，以节省显存适应消费级显卡。我们给每个预测文件都提供了GPUmemorymode，可以在modelcpuoffload，modelcpuoffloadandqfloat8，sequentialcpuoffload中进行选择。该方案同样适用于CogVideoX-Fun的生成。 - modelcpuoffload代表整个模型在使用后会进入cpu，可以节省部分显存。 - modelcpuoffloadandqfloat8代表整个模型在使用后会进入cpu，并且对transformer模型进行了float8的量化，可以节省更多的显存。 - sequentialcpuoffload代表模型的每一层在使用后会进入cpu，速度较慢，节省大量显存。 qfloat8会部分降低模型的性能，但可以节省更多的显存。如果显存足够，推荐使用modelcpuoffload。 c、运行python文件 - 步骤1：下载对应权重放入models文件夹。 - 步骤2：根据不同的权重与预测目标使用不同的文件进行预测。当前该库支持CogVideoX-Fun、Wan2.1、Wan2.1-Fun、Wan2.2，在examples文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以CogVideoX-Fun为例。 - 文生视频： - 使用examples/cogvideoxfun/predictt2v.py文件中修改prompt、negprompt、guidancescale和seed。 - 而后运行examples/cogvideoxfun/predictt2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videos文件夹中。 - 图生视频： - 使用examples/cogvideoxfun/predicti2v.py文件中修改validationimagestart、validationimageend、prompt、negprompt、guidancescale和seed。 - validationimagestart是视频的开始图片，validationimageend是视频的结尾图片。 - 而后运行examples/cogvideoxfun/predicti2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosi2v文件夹中。 - 视频生视频： - 使用examples/cogvideoxfun/predictv2v.py文件中修改validationvideo、validationimageend、prompt、negprompt、guidancescale和seed。 - validationvideo是视频生视频的参考视频。您可以使用以下视频运行演示：演示视频 - 而后运行examples/cogvideoxfun/predictv2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosv2v文件夹中。 - 普通控制生视频（Canny、Pose、Depth等）： - 使用examples/cogvideoxfun/predictv2vcontrol.py文件中修改controlvideo、validationimageend、prompt、negprompt、guidancescale和seed。 - controlvideo是控制生视频的控制视频，是使用Canny、Pose、Depth等算子提取后的视频。您可以使用以下视频运行演示：演示视频 - 而后运行examples/cogvideoxfun/predictv2vcontrol.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosv2vcontrol文件夹中。 - 步骤3：如果想结合自己训练的其他backbone与Lora，则看情况修改examples/{modelname}/predictt2v.py中的examples/{modelname}/predicti2v.py和lorapath。 webui支持文生视频、图生视频、视频生视频和普通控制生视频（Canny、Pose、Depth等）。在examples文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以CogVideoX-Fun为例。 - 步骤1：下载对应权重放入models文件夹。 - 步骤2：运行examples/cogvideoxfun/app.py文件，进入gradio页面。 - 步骤3：根据页面选择生成模型，填入prompt、negprompt、guidancescale和seed等，点击生成，等待生成结果，结果保存在sample文件夹中。参考文献 - CogVideo: https://github.com/THUDM/CogVideo/ - EasyAnimate: https://github.com/aigc-apps/EasyAnimate - Wan2.1: https://github.com/Wan-Video/Wan2.1/ - Wan2.1: https://github.com/Wan-Video/Wan2.2/ - ComfyUI-KJNodes: https://github.com/kijai/ComfyUI-KJNodes - ComfyUI-EasyAnimateWrapper: https://github.com/kijai/ComfyUI-EasyAnimateWrapper - ComfyUI-CameraCtrl-Wrapper: https://github.com/chaojie/ComfyUI-CameraCtrl-Wrapper - CameraCtrl: https://github.com/hehao13/CameraCtrl

NaNK

license:apache-2.0

EasyAnimateV4-XL-2-InP

—

pai-bert-base-zh

license:apache-2.0

pai-bert-tiny-zh

license:apache-2.0

CogVideoX-Fun-2b-InP

NaNK

—

Wan2.2-Fun-5B-InP

[](https://huggingface.co/spaces/alibaba-pai/Wan2.1-Fun-1.3B-InP) | 名称 | 存储空间 | Hugging Face | Model Scope | 描述 | |--|--|--|--|--| | Wan2.2-Fun-A14B-InP | 64.0 GB | 🤗Link | 😄Link | Wan2.2-Fun-14B文图生视频权重，以多分辨率训练，支持首尾图预测。 | | Wan2.2-Fun-A14B-Control | 64.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-14B视频控制权重，支持不同的控制条件，如Canny、Depth、Pose、MLSD等，同时支持使用轨迹控制。支持多分辨率（512，768，1024）的视频预测，，以81帧、每秒16帧进行训练，支持多语言预测 | | Wan2.2-Fun-A14B-Control-Camera | 64.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-14B相机镜头控制权重。支持多分辨率（512，768，1024）的视频预测，，以81帧、每秒16帧进行训练，支持多语言预测 | | Wan2.2-Fun-5B-InP | 23.0 GB | 🤗Link | 😄Link | Wan2.2-Fun-5B文图生视频权重，以121帧、每秒24帧进行训练支持首尾图预测。 | | Wan2.2-Fun-5B-Control | 23.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-5B视频控制权重，支持不同的控制条件，如Canny、Depth、Pose、MLSD等，同时支持使用轨迹控制。以121帧、每秒24帧进行训练，支持多语言预测 | | Wan2.2-Fun-5B-Control-Camera | 23.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-5B相机镜头控制权重。以121帧、每秒24帧进行训练，支持多语言预测 | Generic Control Video (Canny, Pose, Depth, etc.) and Trajectory Control: 快速启动 1. 云使用: AliyunDSW/Docker a. 通过阿里云 DSW DSW 有免费 GPU 时间，用户可申请一次，申请后3个月内有效。阿里云在Freetier提供免费GPU时间，获取并在阿里云PAI-DSW中使用，5分钟内即可启动CogVideoX-Fun。 [](https://gallery.pai-ml.com/#/preview/deepLearning/cv/cogvideoxfun) c. 通过docker 使用docker的情况下，请保证机器中已经正确安装显卡驱动与CUDA环境，然后以此执行以下命令： Windows 的详细信息： - 操作系统 Windows 10 - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU： Nvidia-3060 12G & Nvidia-3090 24G Linux 的详细信息： - 操作系统 Ubuntu 20.04, CentOS - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU：Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G 通过comfyui：将模型放入Comfyui的权重文件夹`ComfyUI/models/FunModels/`： a、显存节省方案由于Wan2.2的参数非常大，我们需要考虑显存节省方案，以节省显存适应消费级显卡。我们给每个预测文件都提供了GPUmemorymode，可以在modelcpuoffload，modelcpuoffloadandqfloat8，sequentialcpuoffload中进行选择。该方案同样适用于CogVideoX-Fun的生成。 - modelcpuoffload代表整个模型在使用后会进入cpu，可以节省部分显存。 - modelcpuoffloadandqfloat8代表整个模型在使用后会进入cpu，并且对transformer模型进行了float8的量化，可以节省更多的显存。 - sequentialcpuoffload代表模型的每一层在使用后会进入cpu，速度较慢，节省大量显存。 qfloat8会部分降低模型的性能，但可以节省更多的显存。如果显存足够，推荐使用modelcpuoffload。 c、运行python文件 - 步骤1：下载对应权重放入models文件夹。 - 步骤2：根据不同的权重与预测目标使用不同的文件进行预测。当前该库支持CogVideoX-Fun、Wan2.1、Wan2.1-Fun、Wan2.2，在examples文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以CogVideoX-Fun为例。 - 文生视频： - 使用examples/cogvideoxfun/predictt2v.py文件中修改prompt、negprompt、guidancescale和seed。 - 而后运行examples/cogvideoxfun/predictt2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videos文件夹中。 - 图生视频： - 使用examples/cogvideoxfun/predicti2v.py文件中修改validationimagestart、validationimageend、prompt、negprompt、guidancescale和seed。 - validationimagestart是视频的开始图片，validationimageend是视频的结尾图片。 - 而后运行examples/cogvideoxfun/predicti2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosi2v文件夹中。 - 视频生视频： - 使用examples/cogvideoxfun/predictv2v.py文件中修改validationvideo、validationimageend、prompt、negprompt、guidancescale和seed。 - validationvideo是视频生视频的参考视频。您可以使用以下视频运行演示：演示视频 - 而后运行examples/cogvideoxfun/predictv2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosv2v文件夹中。 - 普通控制生视频（Canny、Pose、Depth等）： - 使用examples/cogvideoxfun/predictv2vcontrol.py文件中修改controlvideo、validationimageend、prompt、negprompt、guidancescale和seed。 - controlvideo是控制生视频的控制视频，是使用Canny、Pose、Depth等算子提取后的视频。您可以使用以下视频运行演示：演示视频 - 而后运行examples/cogvideoxfun/predictv2vcontrol.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosv2vcontrol文件夹中。 - 步骤3：如果想结合自己训练的其他backbone与Lora，则看情况修改examples/{modelname}/predictt2v.py中的examples/{modelname}/predicti2v.py和lorapath。 webui支持文生视频、图生视频、视频生视频和普通控制生视频（Canny、Pose、Depth等）。在examples文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以CogVideoX-Fun为例。 - 步骤1：下载对应权重放入models文件夹。 - 步骤2：运行examples/cogvideoxfun/app.py文件，进入gradio页面。 - 步骤3：根据页面选择生成模型，填入prompt、negprompt、guidancescale和seed等，点击生成，等待生成结果，结果保存在sample文件夹中。参考文献 - CogVideo: https://github.com/THUDM/CogVideo/ - EasyAnimate: https://github.com/aigc-apps/EasyAnimate - Wan2.1: https://github.com/Wan-Video/Wan2.1/ - Wan2.1: https://github.com/Wan-Video/Wan2.2/ - ComfyUI-KJNodes: https://github.com/kijai/ComfyUI-KJNodes - ComfyUI-EasyAnimateWrapper: https://github.com/kijai/ComfyUI-EasyAnimateWrapper - ComfyUI-CameraCtrl-Wrapper: https://github.com/chaojie/ComfyUI-CameraCtrl-Wrapper - CameraCtrl: https://github.com/hehao13/CameraCtrl

NaNK

license:apache-2.0

pai-bert-base-zh-llm-risk-detection

Alibaba PAI BERT Base Chinese for LLM Risk Detection We provide a fine-tuned Chinese BERT-base model to detect toxic contents generated by LLMs.

license:apache-2.0

Wan2.2-Fun-5B-Control-Camera

[](https://huggingface.co/spaces/alibaba-pai/Wan2.1-Fun-1.3B-InP) | 名称 | 存储空间 | Hugging Face | Model Scope | 描述 | |--|--|--|--|--| | Wan2.2-Fun-A14B-InP | 64.0 GB | 🤗Link | 😄Link | Wan2.2-Fun-14B文图生视频权重，以多分辨率训练，支持首尾图预测。 | | Wan2.2-Fun-A14B-Control | 64.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-14B视频控制权重，支持不同的控制条件，如Canny、Depth、Pose、MLSD等，同时支持使用轨迹控制。支持多分辨率（512，768，1024）的视频预测，，以81帧、每秒16帧进行训练，支持多语言预测 | | Wan2.2-Fun-A14B-Control-Camera | 64.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-14B相机镜头控制权重。支持多分辨率（512，768，1024）的视频预测，，以81帧、每秒16帧进行训练，支持多语言预测 | | Wan2.2-Fun-5B-InP | 23.0 GB | 🤗Link | 😄Link | Wan2.2-Fun-5B文图生视频权重，以121帧、每秒24帧进行训练支持首尾图预测。 | | Wan2.2-Fun-5B-Control | 23.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-5B视频控制权重，支持不同的控制条件，如Canny、Depth、Pose、MLSD等，同时支持使用轨迹控制。以121帧、每秒24帧进行训练，支持多语言预测 | | Wan2.2-Fun-5B-Control-Camera | 23.0 GB | 🤗Link | 😄Link| Wan2.2-Fun-5B相机镜头控制权重。以121帧、每秒24帧进行训练，支持多语言预测 | Generic Control Video (Canny, Pose, Depth, etc.) and Trajectory Control: 快速启动 1. 云使用: AliyunDSW/Docker a. 通过阿里云 DSW DSW 有免费 GPU 时间，用户可申请一次，申请后3个月内有效。阿里云在Freetier提供免费GPU时间，获取并在阿里云PAI-DSW中使用，5分钟内即可启动CogVideoX-Fun。 [](https://gallery.pai-ml.com/#/preview/deepLearning/cv/cogvideoxfun) c. 通过docker 使用docker的情况下，请保证机器中已经正确安装显卡驱动与CUDA环境，然后以此执行以下命令： Windows 的详细信息： - 操作系统 Windows 10 - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU： Nvidia-3060 12G & Nvidia-3090 24G Linux 的详细信息： - 操作系统 Ubuntu 20.04, CentOS - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU：Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G 通过comfyui：将模型放入Comfyui的权重文件夹`ComfyUI/models/FunModels/`： a、显存节省方案由于Wan2.2的参数非常大，我们需要考虑显存节省方案，以节省显存适应消费级显卡。我们给每个预测文件都提供了GPUmemorymode，可以在modelcpuoffload，modelcpuoffloadandqfloat8，sequentialcpuoffload中进行选择。该方案同样适用于CogVideoX-Fun的生成。 - modelcpuoffload代表整个模型在使用后会进入cpu，可以节省部分显存。 - modelcpuoffloadandqfloat8代表整个模型在使用后会进入cpu，并且对transformer模型进行了float8的量化，可以节省更多的显存。 - sequentialcpuoffload代表模型的每一层在使用后会进入cpu，速度较慢，节省大量显存。 qfloat8会部分降低模型的性能，但可以节省更多的显存。如果显存足够，推荐使用modelcpuoffload。 c、运行python文件 - 步骤1：下载对应权重放入models文件夹。 - 步骤2：根据不同的权重与预测目标使用不同的文件进行预测。当前该库支持CogVideoX-Fun、Wan2.1、Wan2.1-Fun、Wan2.2，在examples文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以CogVideoX-Fun为例。 - 文生视频： - 使用examples/cogvideoxfun/predictt2v.py文件中修改prompt、negprompt、guidancescale和seed。 - 而后运行examples/cogvideoxfun/predictt2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videos文件夹中。 - 图生视频： - 使用examples/cogvideoxfun/predicti2v.py文件中修改validationimagestart、validationimageend、prompt、negprompt、guidancescale和seed。 - validationimagestart是视频的开始图片，validationimageend是视频的结尾图片。 - 而后运行examples/cogvideoxfun/predicti2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosi2v文件夹中。 - 视频生视频： - 使用examples/cogvideoxfun/predictv2v.py文件中修改validationvideo、validationimageend、prompt、negprompt、guidancescale和seed。 - validationvideo是视频生视频的参考视频。您可以使用以下视频运行演示：演示视频 - 而后运行examples/cogvideoxfun/predictv2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosv2v文件夹中。 - 普通控制生视频（Canny、Pose、Depth等）： - 使用examples/cogvideoxfun/predictv2vcontrol.py文件中修改controlvideo、validationimageend、prompt、negprompt、guidancescale和seed。 - controlvideo是控制生视频的控制视频，是使用Canny、Pose、Depth等算子提取后的视频。您可以使用以下视频运行演示：演示视频 - 而后运行examples/cogvideoxfun/predictv2vcontrol.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videosv2vcontrol文件夹中。 - 步骤3：如果想结合自己训练的其他backbone与Lora，则看情况修改examples/{modelname}/predictt2v.py中的examples/{modelname}/predicti2v.py和lorapath。 webui支持文生视频、图生视频、视频生视频和普通控制生视频（Canny、Pose、Depth等）。在examples文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以CogVideoX-Fun为例。 - 步骤1：下载对应权重放入models文件夹。 - 步骤2：运行examples/cogvideoxfun/app.py文件，进入gradio页面。 - 步骤3：根据页面选择生成模型，填入prompt、negprompt、guidancescale和seed等，点击生成，等待生成结果，结果保存在sample文件夹中。参考文献 - CogVideo: https://github.com/THUDM/CogVideo/ - EasyAnimate: https://github.com/aigc-apps/EasyAnimate - Wan2.1: https://github.com/Wan-Video/Wan2.1/ - Wan2.1: https://github.com/Wan-Video/Wan2.2/ - ComfyUI-KJNodes: https://github.com/kijai/ComfyUI-KJNodes - ComfyUI-EasyAnimateWrapper: https://github.com/kijai/ComfyUI-EasyAnimateWrapper - ComfyUI-CameraCtrl-Wrapper: https://github.com/chaojie/ComfyUI-CameraCtrl-Wrapper - CameraCtrl: https://github.com/hehao13/CameraCtrl

NaNK

license:apache-2.0

AgenticQwen-8B

NaNK

—

CogVideoX-Fun-V1.1-2b-InP

NaNK

—

pai-diffusion-artist-large-zh-lora-poem

license:apache-2.0

DistilQwen2.5-1.5B-Instruct

NaNK

—

CogVideoX-Fun-5b-InP

NaNK

—

pai-diffusion-artist-large-zh-lora-25d

license:apache-2.0

DistilQwen2.5-3B-Instruct

NaNK

—

CogVideoX-Fun-V1.1-5b-Pose

NaNK

—

pai-qwen1_5-4b-doc2qa

NaNK

—

DistilQwen2.5-7B-Instruct

NaNK

—

CogVideoX-Fun-V1.1-5b-Control

NaNK

—

EasyAnimateV5.1-7b-zh-diffusers

NaNK

license:apache-2.0

pai-dkplm-medical-base-zh

license:apache-2.0

pai-diffusion-artist-large-zh-controlnet-canny

license:apache-2.0

DistillQwen-ThoughtY-32B

NaNK

license:apache-2.0

EasyAnimateV5-12b-zh

NaNK

—

DistillQwen-ThoughtY-8B

NaNK

license:apache-2.0

EasyAnimateV5.1-7b-zh

NaNK

license:apache-2.0

DistillQwen-ThoughtY-4B

NaNK

license:apache-2.0

EasyAnimateV5.1-12b-zh-Control

NaNK

license:apache-2.0

EasyAnimateV5.1-12b-zh-Control-Camera

NaNK

license:apache-2.0

pai-diffusion-general-large-zh

license:apache-2.0

Qwen2-7B-Instruct-Refine

NaNK

—

EasyAnimateV5.1-7b-zh-Control

NaNK

license:apache-2.0

EasyAnimateV5.1-12b-zh-diffusers

NaNK

license:apache-2.0

EasyAnimateV3-XL-2-InP-512x512

license:apache-2.0

DistilQwen-ThoughtX-32B

NaNK

license:apache-2.0

DistilQwen2-1.5B-Instruct

NaNK

—

pai-diffusion-general-xlarge-zh

license:apache-2.0

pai-diffusion-general-large-zh-controlnet-canny

license:apache-2.0

EasyAnimateV2-XL-2-768x768

license:apache-2.0

EasyAnimateV5-12b-zh-InP

NaNK

—

DistilQwen2.5-DS3-0324-32B

NaNK

license:apache-2.0

pai-diffusion-food-large-zh

license:apache-2.0

pai-diffusion-artist-large-zh-controlnet-depth

license:apache-2.0

pai-diffusion-general-large-zh-controlnet-depth

license:apache-2.0

DistilQwen2.5-R1-14B

NaNK

—

DistilQwen-ThoughtX-7B

NaNK

license:apache-2.0

pai-bloom-1b1-text2prompt-sd

NaNK

license:apache-2.0

EasyAnimateV5.1-7b-zh-InP

NaNK

license:apache-2.0

DistilQwen2.5-DS3-0324-14B

NaNK

license:apache-2.0

CogVideoX-Fun-V1.1-2b-Control

NaNK

—

pai-qwen1_5-0b5-doc2qa

NaNK

—

pai-diffusion-anime-large-zh

license:apache-2.0

EasyAnimateV5.1-7b-zh-Control-Camera

NaNK

license:apache-2.0

EasyAnimateV5.1-12b-zh-InP

NaNK

license:apache-2.0

pai-diffusion-artist-large-zh

license:apache-2.0

EasyAnimateV3-XL-2-InP-768x768

license:apache-2.0

pai-diffusion-artist-xlarge-zh

license:apache-2.0

EasyAnimateV3-XL-2-InP-960x960

license:apache-2.0

pai-ckbert-base-zh

license:apache-2.0

EasyAnimateV5-7b-zh-InP

NaNK

—

pai-ckbert-large-zh

license:apache-2.0

Qwen2-7B-Instruct-Response-Exp

NaNK

—

pai-dkplm-financial-base-zh

license:apache-2.0

EasyAnimateV5-7b-zh

NaNK

—

EasyAnimateV5.1-12b-zh-Control-Camera-diffusers

NaNK

license:apache-2.0

pai-qwen1_5-1b8-doc2qa

NaNK

—

Qwen2-1.5B-Instruct-Refine

NaNK

—

EasyAnimateV5.1-7b-zh-Control-Camera-diffusers

NaNK

license:apache-2.0

EasyAnimateV5.1-7b-zh-Control-diffusers

NaNK

license:apache-2.0

DistilQwen2.5-R1-32B

NaNK

—

Z-Image-Turbo-Fun-Controlnet-Union

license:apache-2.0

297

Wan2.2-Fun-Reward-LoRAs

Wan2.2-Fun-Reward-LoRAs Introduction We explore the Reward Backpropagation technique 1 2 to optimized the generated videos by Wan2.2-Fun for better alignment with human preferences. We provide the following pre-trained models (i.e. LoRAs) along with the training script. You can use these LoRAs to enhance the corresponding base model as a plug-in or train your own reward LoRA. | Name | Base Model | Reward Model | Hugging Face | Description | |--|--|--|--|--| | Wan2.2-Fun-A14B-InP-high-noise-HPS2.1.safetensors | Wan2.2-Fun-A14B-InP (high noise) | HPS v2.1 | 🤗Link | Official HPS v2.1 reward LoRA (`rank=128` and `networkalpha=64`) for Wan2.2-Fun-A14B-InP (high noise). It is trained with a batch size of 8 for 5,000 steps.| | Wan2.2-Fun-A14B-InP-low-noise-HPS2.1.safetensors | Wan2.2-Fun-A14B-InP (low noise) | MPS | 🤗Link | Official HPS v2.1 reward LoRA (`rank=128` and `networkalpha=64`) for Wan2.2-Fun-A14B-InP (low noise). It is trained with a batch size of 8 for 2,700 steps.| | Wan2.2-Fun-A14B-InP-high-noise-MPS.safetensors | Wan2.2-Fun-A14B-InP (high noise) | HPS v2.1 | 🤗Link | Official MPS reward LoRA (`rank=128` and `networkalpha=64`) for Wan2.2-Fun-A14B-InP (high noise). It is trained with a batch size of 8 for 5,000 steps.| | Wan2.2-Fun-A14B-InP-low-noise-MPS.safetensors | Wan2.2-Fun-A14B-InP (low noise) | MPS | 🤗Link | Official MPS reward LoRA (`rank=128` and `networkalpha=64`) for Wan2.2-Fun-A14B-InP (low noise). It is trained with a batch size of 8 for 4,500 steps.| > [!NOTE] > We found that, MPS reward LoRA for the low-noise model converges significantly more slowly than on the other models, and may not deliver satisfactory results. Therefore, for the low-noise model, we recommend using HPSv2.1 reward LoRA. Prompt Wan2.2-Fun-A14B-InP Wan2.2-Fun-A14B-InP high + low HPSv2.1 Reward LoRA Wan2.2-Fun-A14B-InP high MPS + low HPSv2.1 Reward LoRA A panda eats bamboo while a monkey swings from branch to branch Expanded In a lush green forest, a panda sits comfortably against a tree, leisurely munching on bamboo stalks. Nearby, a lively monkey swings energetically from branch to branch, its tail curling around the limbs. Sunlight filters through the canopy, casting dappled shadows on the forest floor. A dog runs through a field while a cat climbs a tree Expanded In a sunlit, expansive green field surrounded by tall trees, a playful golden retriever sprints energetically across the grass, its fur gleaming in the afternoon sun. Nearby, a nimble tabby cat gracefully climbs a sturdy tree, its claws gripping the bark effortlessly. The sky is clear blue with occasional birds flying. Expanded A small penguin waddles slowly across a vast, icy surface under a clear blue sky. The penguin's short, flipper-like wings sway at its sides as it moves. Nearby, a camel treks steadily, its long legs navigating the snowy terrain with ease. The camel's fur is thick, providing warmth in the cold environment. Expanded A whimsical pig, complete with delicate feathered wings, soars gracefully above a shimmering diamond mountain. The pig's pink skin glistens in the sunlight as it flaps its wings. The mountain below sparkles with countless facets, reflecting brilliant rays of light into the clear blue sky. > [!NOTE] > The above test prompts are from T2V-CompBench and expanded into detailed prompts by Llama-3.3. > Videos are generated with HPSv2.1 Reward LoRA weight 0.5 and MPS Reward LoRA weight 0.5. Quick Start Set `lorapath` along with `loraweight` for the low noise reward LoRA, while specifying `lorahighpath` and `lorahighweight` for high noise reward LoRA in examples/wan2.2fun/predictt2v.py. Limitations 1. We observe after training to a certain extent, the reward continues to increase, but the quality of the generated videos does not further improve. The model trickly learns some shortcuts (by adding artifacts in the background, i.e., adversarial patches) to increase the reward. 2. Currently, there is still a lack of suitable preference models for video generation. Directly using image preference models cannot evaluate preferences along the temporal dimension (such as dynamism and consistency). Further more, We find using image preference models leads to a decrease in the dynamism of generated videos. Although this can be mitigated by computing the reward using only the first frame of the decoded video, the impact still persists. Clark, Kevin, et al. "Directly fine-tuning diffusion models on differentiable rewards.". In ICLR 2024. Prabhudesai, Mihir, et al. "Aligning text-to-image diffusion models with reward backpropagation." arXiv preprint arXiv:2310.03739 (2023).

license:apache-2.0

CogVideoX-Fun-V1.1-Reward-LoRAs

—

Wan2.1-Fun-Reward-LoRAs

Wan2.1-Fun-Reward-LoRAs Introduction We explore the Reward Backpropagation technique 1 2 to optimized the generated videos by Wan2.1-Fun for better alignment with human preferences. We provide the following pre-trained models (i.e. LoRAs) along with the training script. You can use these LoRAs to enhance the corresponding base model as a plug-in or train your own reward LoRA. | Name | Base Model | Reward Model | Hugging Face | Description | |--|--|--|--|--| | Wan2.1-Fun-1.3B-InP-HPS2.1.safetensors | Wan2.1-Fun-1.3B-InP | HPS v2.1 | 🤗Link | Official HPS v2.1 reward LoRA (`rank=128` and `networkalpha=64`) for Wan2.1-Fun-1.3B-InP. It is trained with a batch size of 8 for 5,000 steps.| | Wan2.1-Fun-1.3B-InP-MPS.safetensors | Wan2.1-Fun-1.3B-InP | MPS | 🤗Link | Official MPS reward LoRA (`rank=128` and `networkalpha=64`) for Wan2.1-Fun-1.3B-InP. It is trained with a batch size of 8 for 7,500 steps.| | Wan2.1-Fun-14B-InP-HPS2.1.safetensors | Wan2.1-Fun-14B-InP | HPS v2.1 | 🤗Link | Official HPS v2.1 reward LoRA (`rank=128` and `networkalpha=64`) for Wan2.1-Fun-14B-InP. It is trained with a batch size of 32 for 3,000 steps.| | Wan2.1-Fun-14B-InP-MPS.safetensors | Wan2.1-Fun-14B-InP | MPS | 🤗Link | Official MPS reward LoRA (`rank=128` and `networkalpha=64`) for Wan2.1-Fun-14B-InP. It is trained with a batch size of 8 for 4,500 steps.| Prompt Wan2.1-Fun-1.3B-InP Wan2.1-Fun-1.3B-InP HPSv2.1 Reward LoRA Wan2.1-Fun-1.3B-InP MPS Reward LoRA A kangaroo bounds across the plain and a cow grazes Expanded In a vast, sun-drenched Australian plain, a lively kangaroo bounds with powerful leaps across the dry grass, its shadow following closely. Nearby, a serene brown and white cow grazes leisurely, its tail swishing gently in the warm breeze. The sky is a vibrant blue, dotted with fluffy clouds. Expanded A small penguin waddles slowly across a vast, icy surface under a clear blue sky. The penguin's short, flipper-like wings sway at its sides as it moves. Nearby, a camel treks steadily, its long legs navigating the snowy terrain with ease. The camel's fur is thick, providing warmth in the cold environment. Expanded A delicate porcelain rabbit, with intricate painted details, hops gracefully across a sandy desert floor. Nearby, a golden cactus stands tall, its metallic surface glimmering in the sunlight. The backdrop features rolling sand dunes under a clear blue sky, casting gentle shadows. Expanded A whimsical pig, complete with delicate feathered wings, soars gracefully above a shimmering diamond mountain. The pig's pink skin glistens in the sunlight as it flaps its wings. The mountain below sparkles with countless facets, reflecting brilliant rays of light into the clear blue sky. > [!NOTE] > The above test prompts are from T2V-CompBench and expanded into detailed prompts by Llama-3.3. > Videos are generated with HPSv2.1 Reward LoRA weight 0.5 and MPS Reward LoRA weight 0.7. Prompt Wan2.1-Fun-1.3B-InP Wan2.1-Fun-1.3B-InP HPSv2.1 Reward LoRA Wan2.1-Fun-1.3B-InP MPS Reward LoRA A panda eats bamboo while a monkey swings from branch to branch Expanded In a lush green forest, a panda sits comfortably against a tree, leisurely munching on bamboo stalks. Nearby, a lively monkey swings energetically from branch to branch, its tail curling around the limbs. Sunlight filters through the canopy, casting dappled shadows on the forest floor. A dog runs through a field while a cat climbs a tree Expanded In a sunlit, expansive green field surrounded by tall trees, a playful golden retriever sprints energetically across the grass, its fur gleaming in the afternoon sun. Nearby, a nimble tabby cat gracefully climbs a sturdy tree, its claws gripping the bark effortlessly. The sky is clear blue with occasional birds flying. Elderly artist with a white beard painting on a white canvas Expanded An elderly artist with a long white beard stands in a sunlit studio surrounded by art supplies. He wears a paint-splattered apron over a casual shirt. His hand moves gracefully as he paints vibrant colors on a large white canvas positioned on an easel. The studio is filled with natural light streaming through tall windows, highlighting the textures of his work. Expanded A whimsical pig, complete with delicate feathered wings, soars gracefully above a shimmering diamond mountain. The pig's pink skin glistens in the sunlight as it flaps its wings. The mountain below sparkles with countless facets, reflecting brilliant rays of light into the clear blue sky. > [!NOTE] > The above test prompts are from T2V-CompBench and expanded into detailed prompts by Llama-3.3. > Videos are generated with HPSv2.1 Reward LoRA weight 0.7 and MPS Reward LoRA weight 0.7. Quick Start Set `lorapath` and `loraweight` in examples/wan2.1fun/predictt2v.py. Limitations 1. We observe after training to a certain extent, the reward continues to increase, but the quality of the generated videos does not further improve. The model trickly learns some shortcuts (by adding artifacts in the background, i.e., adversarial patches) to increase the reward. 2. Currently, there is still a lack of suitable preference models for video generation. Directly using image preference models cannot evaluate preferences along the temporal dimension (such as dynamism and consistency). Further more, We find using image preference models leads to a decrease in the dynamism of generated videos. Although this can be mitigated by computing the reward using only the first frame of the decoded video, the impact still persists. Clark, Kevin, et al. "Directly fine-tuning diffusion models on differentiable rewards.". In ICLR 2024. Prabhudesai, Mihir, et al. "Aligning text-to-image diffusion models with reward backpropagation." arXiv preprint arXiv:2310.03739 (2023).

license:apache-2.0

alibaba-pai/VideoCLIP-XL

[2024/10] A new VideoCLIP-XL-v2 model has been released. [2024/10] Initial commit for the VideoCLIP-XL model, the VILD dataset, and the LVDR benchmark. This model is proposed from VideoCLIP-XL paper. It aims to advance long description understanding for video CLIP Models. Install ~~~ 1. Create your environment 2. Install torch 3. Then: pip install -r requirements.txt ~~~ Source ~~~ @misc{wang2024videoclipxladvancinglongdescription, title={VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models}, author={Jiapeng Wang and Chengyu Wang and Kunzhe Huang and Jun Huang and Lianwen Jin}, year={2024}, eprint={2410.00741}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.00741}, } ~~~

license:cc-by-nc-sa-4.0