本地部署文生视频模型
本地部署阿里的万象2.1文生视频(Wan2.1-T2V-1.3B)模型
本地环境i5-13490 32g内存 4060 8g显存
官网地址:Wan-AI/Wan2.1-T2V-1.3B · HF Mirror (hf-mirror.com)
参考文档:本地部署阿里的万象2.1文生视频(Wan2.1-T2V-1.3B)模型-CSDN博客
换源
pip换阿里源
1 | pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/ |
安装cuda
版本选择12.6.0
CUDA Toolkit Archive | NVIDIA Developer
cuda默认安装位置:
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6
安装cudnn
版本选择8.9.7
cuDNN Archive | NVIDIA Developer
(2)CUDNN的安装与配置
1.下载好CUDNN的压缩包后进行解压
2.打开\NVIDIA Computing Toolkit\CUDA\v12.2,将CUDNN对应bin、lib、include三个文件与CUDA对应的bin、lib、include进行合并,将CUDNN内文件全部复制到CUDA对应文件夹内
将CUDNN\lib\x64的文件全部复制到CUDA\v12.2\lib\x64中
3.打开“编辑系统环境变量”,点击“环境变量”,点击“系统变量”中Path添加C:\Program Files\NVIDIA Computing Toolkit\CUDA\v12.2\lib和v12.2\libnvvp以及v12.2\include,点击“确定”完成配置
(3)检查CUDNN是否安装成功
打开C:\Program Files\NVIDIA Computing Toolkit\CUDA\v12.2\extras\demo_suite,查看是否有文件bandwidthTest.exe以及deviceQuery.exe,若存在则在该文件中打开cmd运行两.exe文件
运行bandwidthTest.exe
运行deviceQuery.exe
若都能成功运行,CUDNN安装成功
克隆仓库
1 | git clone https://github.com/Wan-Video/Wan2.1.git |
创建虚拟环境
1 | conda create --name wanxiang python=3.10 |
手动下载flash_attn
地址:https://github.com/kingbri1/flash-attention/releases
安装:
1 | pip install C:\Users\mx\Downloads\flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl |
查看当前虚拟环境的依赖
1 | (wanxiang) C:\Users\mx>conda list |
手动下载pytorch
官网:download.pytorch.org/whl/torch/
torch安装踩坑:使用国内镜像解决torch-cuda太慢问题 - 知乎 (zhihu.com)
记一次torch和torchvision安装历程_镜像安装 mkl-2021.4.0-CSDN博客
pytorch gpu国内镜像下载,目前最快下载_pytorch镜像下载-CSDN博客
1 | pip install torch torchvision --index-url https://mirrors.aliyun.com/pypi/simple |
使用的版本:torch2.6
版本对应关系:PyTorch中torch、torchvision、torchaudio、torchtext版本对应关系_torch2.0.1对应的torchvision-CSDN博客
手动下载链接:
检查是否成功
1 | import torch |
下载项目依赖
1 | pip install -r requirements.txt |
安装魔搭
1 | pip install modelscope |
安装模型
1 | modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B |
生成视频
1 | python generate.py --task t2v-1.3B --size 640x360 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 6 --sample_guide_scale 7 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage." --save_file test.mp4 |
阿里提示词指南
通义万相AI生视频—使用指南 · 钉钉文档 (dingtalk.com)
提示词公式
提示词用来描述视频中所包含的内容和运动过程,它是控制视频画面内容与效果的关键因素。提示词描述越完整、精确和丰富,生成视
频的品质越高,且越贴近期望生成的内容。为了帮助你更快上手,我们针对不同的使用需求提供了四种提示词使用公式:
基础公式适用于初次尝试AI视频的新用户,及将AI视频作为灵感启发的用户,简单自由的提示词可生成更具有想象力的视频。
提示词=主体+场景 +运动
主体:主体是视频内容的主要表现对象,可以是人、动物、植物、物品或非物理真实存在的想象物体。
场景:场景是主体所处的环境,包含背景、前景,可以是物理存在的真实空间或想象出来的虚构场景。
运动:运动包含主体的具体运动和非主体的运动状态,可以是静止、小幅度运动、大幅度运动、局部运动或整体动势。
进阶公式适用于有一定AI视频使用经验的用户,在基础公式之上添加更丰富细致的描述可有效提升视频质感、生动性与故事性。
提示词=主体(主体描述)+场景(场景描述)+运动(运动描述)+镜头语言+氛围词+风格化
主体描述:主体描述是对主体外观特征细节的描述,可通过形容词或短句列举,例如“一位身着少数民族服饰的黑发苗族少女”、“一位来自异世界的飞天仙
子,身着破日却华丽的服饰,背后展开一对由废墟碎片构成的奇异翅膀”。
场景描述:场景描述是对主体所处环境特征细节的描述,可通过形容词或短句列举。
运动描述:运动描述是对运动特征细节的描述,包含运动的幅度、速率和运动作用的效果,例如“猛烈地摇摆”、“缓慢地移动”、“打碎了玻璃”。
镜头语言:镜头语言包含景别、视角、镜头、运镜等,常见镜头语言详见下方提示词词典。
氛围词:氛围词是对预期画面氛围的描述,例如“梦幻”、“孤独”、“宏伟”,常见氛围词详见下方提示词词典。
风格化:风格化是对画面风格语言的描述,例如“赛博朋克”、“勾线插画”、“废土风格”,常见风格化详见下方提示词词典。
运镜公式适用于对镜头运动有明确要求、面对专业视频输出场景的用户,在基础公式/丰富公式之上添加更具体的运镜描述可以有效提
升视频的动态感和叙事性。
提示词=运镜描述+主体(主体描述)+场景(场景描述)+运动(运动描述)+镜头语言+氛围词+风格化
运镜描述:运镜描述是对镜头运动的具体描述,在时间线上,将镜头运动和画面内容的变化有效结合可以有效提升视频叙事的丰富性和专业度。用户可以通
过代入导演的视角来想象和书写运镜过程。时间上,需要注意将镜头运动的时长合理控制在5s内,避免过于复杂的运镜。
形变公式适用于有明确该类创意需求的用户,在基础公式/进阶公式的基础上添加形变描述可以有效提升视频的趣味性,带来意想不到
的视觉效果。
提示词=主体A(主体描述)+形变过程+主体B(主体描述)+场景(场景描述)+运动(运动描述)+镜头语言+氛围词+
风格化
主体A:主体A指主体形变前的特征和状态。
形变过程:形变过程是对主体从A形态变为B形态的过程描述。详细的过程描述可以有效提升形变的自然度和生动性。
主体B:主体B指主体形变后的特征和状态。
提示词示例
日漫风格。在城市的街道一角,一只黑猫蹲伏在路灯下,注视着远处的霓
虹灯光。突然一道蓝色光芒从天而降,迅速包裹住他的身体。黑猫在光芒
中腾空而起,黑色的毛发逐渐消散在空气中,身体迅速变长。他的皮毛变
为一件黑色的修身西服,勾勒出修长的轮廓。猫耳消失,脸部轮廓逐渐清
晰,最终化为一张帅气而冷峻的少年面孔。他轻巧地落在地上,西服在夜
风中微微飘动,蓝光渐渐褪去,宛如一位从未来世界中走出的神秘少年,
优雅而自信。
通过撰写不同维度的提示词,能够提升生成视频在指定维度的可控性与表现力。我们精心准备了常用维度及提示词示例作为参考,同时
也欢迎大家挖掘更多使用妙招。
特写镜头|视频中,镜头特写一位古风女子的脸庞,柔和的光线
洒在她的皮肤上,勾勒出细腻的轮廓。
近景镜头|视频中,镜头近景显示一位古风女子捧着一把青色折
扇,指尖轻轻划过扇面上的精美花纹,仿佛在细细品味其中的韵
味。
中景镜头|视频中,镜头中景展示一位古风女子袅袅婷婷地走在
花从中,长裙随风飘荡,仿佛在与自然交融。
远景镜头|视频中,镜头远景展示了繁华的城市街道,宽阔的人
行道上人来人往,形成了一个生动而热闹的画面。
鸟瞰镜头丨视频中,镜头采用鸟瞰视角,俯瞰整个城市的全貌,
展现出互相交织的街道与建筑。
视频从一双行走的腿开始,镜头采用低角度拍摄,聚焦于脚步的
移动。画面中,鞋子踩踏在粗糙的废弃地面上,周围是破碎的混
凝土和零散的杂草,展现出废土风格的荒凉与颓废。
视频展示了一个在末世中行走的人的场景,镜头从高处俯拍一个
人在废土风格的场景中随着阳光缓缓前行。
视频中展示了一块巨大的立方体石块,伫立在广场中央,周围宁
静。镜头缓缓推进,逐渐靠近石块,粗犷的纹理和岁月的痕迹逐
渐清晰。
视频中展示了一块巨大的立方体石块,稳稳伫立在广场中央。镜
头缓缓拉远,石块的宏伟轮廓逐渐显现,广场的石砖和周围的草
坪逐渐展露。最终,整个广场的景色展现在眼前。
视频中展示了一块立方体石块,镜头聚焦在立方体石块上,阳光
透过,散发出温暖的光泽。随着镜头轻轻移动,石块的细节在视
野中渐渐变化,周围环境模糊成背景。随即,镜头自然地切换到
旁边的立方体铁块,光滑的金属表面在阳光下闪烁。焦点流畅地
转移,铁块的冷列与石块的厚重形成鲜明对比。镜头在两者之间
游走,展现出各自的独特魅力。
视频中展示了一个立方体石块在广场中央滚动,镜头跟随运动。
随着砾石的移动,周围的绿草如茵。镜头灵活地紧贴着砾石,捕
捉到地面上细微的纹路和春风掠过的动感。
视频中展示了一块巨大的立方体石块,伫立在广场中央。镜头旋
转延展,围绕这块石块延伸,捕捉到表面粗犷的纹理和阳光下闪
烁的细微光泽。
以上是文生视频的提示词指南,按照以上的提示词指南优化这句话(我需要偏写实,偏真实的画风,似乎是真实的画面):