新手上路 如何本地部署ComfyUI 用AI图生视频

新手上路 如何本地部署ComfyUI 用AI图生视频
2025年10月24日 05:06 中关村在线

目前AI技术日益成熟,网络上已经铺天盖地出现了AI生成的各种内容,包括文章、图片、视频等等。此前我们简单科普过本地大语言模型DeepSeek以及StableDiffusion的部署和应用。

不过除了文章和图片,现在正有越来越多的AI视频出现在短视频平台,如面向年轻人的“橘猫系列”,面向中老年人的“婴儿系列”。今天我们就通过本地部署ComfyUI工作流,来看看如何生成那些好玩的AI短视频。

前期准备工作,前往B站下载 @秋葉aaaki 大佬的【ComfyUI】绘世启动器。

本次我们将使用【通义万相 Wan 2.1】的模型来进行简单的图生视频制作,通过科学上网下载Wan 2.1模型

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models

列表中有大量模型,主要包含【i2v】与【t2v】,分别为图生视频与文生视频。

如果你的显卡显存低于10GB,建议选择t2v 1.3B FP16精度的模型;但不建议选择i2v的图生视频模型,因为基本无法生成视频。

如果显卡显存高于12GB,可选模型就较多了,如i2v 480p FP8或者t2v 14B FP8。

本次我们使用的显卡为iGame GeForce RTX 5070 Ti Advanced OC 16GB,可以选择i2v 720p FP16或t2v 14B FP8精度的模型。

iGame GeForce RTX 5070 Ti Advanced OC 16GB拥有8960个CUDA,采用16GB GDDR7显存,位宽256bit,带宽896 GB/s。算力方面,FP16与FP32精度浮点运算为 43.94 TFLOPS,280个第五代Tensor Core可以带来1406 AI TOPS算力。

本代RTX 5070 Ti相较上一代最大的变化就是显存与算力方面的提升,16GB大显存不仅在游戏方面可以无压力4K,在AI创作方面,更可以解锁众多高精度大模型,毕竟无论是语言、图片或是视频模型,显存是最重要的“钥匙”。

回到上面的模型选择,虽然拥有16GB的RTX 5070 Ti可以选择i2v 720p FP16模型,不过FP16与FP8精度的模型实际生成视频差别并不大,但FP8精度生成的速度要快很多,反而是分辨率比较重要。

下载好模型后放到:根目录-models-diffusion_models下,以我们的测试平台为例:

【ComfyUI-aki-v1.6\ComfyUI\models\diffusion_models\i2v】

按照以上步骤,再下载好Clip Vision、Text encoder、VAE模型(同一个网址分别在不同目录下),分别放到对应的根目录下即可。

使用绘世ComfyUI启动器,一键启动。即可看到ComfyUI的初始界面,先选择【Manager】,将红框中原本的Stable Version切换为Nightly Version,然后更新全部。

等待更新好,界面会跳出重启的提示,退出所有界面,包括启动器,再次进入后会安装更新。更新完成后再次进入ComfyUI的初始界面即可开始创作。在左侧工作流中,选择Wan2.1 图生视频。

即可看到完整的Wan2.1 图生视频工作流界面,下面我们分别讲解。

最左上角UNet加载器为加载模型的地方,现在我们使用的为图生视频工作流,所以要选择刚刚下载的i2v,如果是t2v则会报错。我们选择了720P_14B_FP8模型,分辨率较高,生成速度会比较慢。

下面的为剪枝类型,可以使用默认的,也可以选择对应的FP8_e4m3fn。

CLIP模型选择umt5_xxl_fp8,与上面的模型做对应,类型选择wan。因为这里面还有fp16或者bf16的模型,如果选错了,同样会报错。

CLIP视觉选择下载好的clip_vision_h,这里只有一个模型,应该不会出错。

在页面偏右侧的加载VAE模型中,选择wan_2.1_vae。

在图像的尺寸调整中,可根据选择的模型自定义,我们选择了720p的模型,这里可以将宽度设置为1280×720,如果是竖图则是720×1280,不过这个尺寸比较容易爆显存,16GB以下的显存建议可以适当调低尺寸。如果是480p的模型,则可以设置为640×480或480×640.

Wan图像到视频可控制生成视频的总帧数,这里设置为45帧。所以可以简单理解生成的视频有多长,但帧数与时间并无直接关系。

下面的批次大小直接设置为1,这里代表同时渲染多少帧,它不同于图片渲染,高了会直接爆显存,所以1即可。

在视频输出节点中,可以调节视频的每秒帧数,这里设置每秒16帧,所以视频总帧率为45/16≈2.8秒。

在format可以选择输出格式,主要为gif或mp4,视频格式的话选择h264-mp4即可。

Tea Cach可以简单理解为渲染抽帧给渲染提速,可以简单理解为在一次渲染中,少渲染几个不重要的帧,但前提是降低质量。

第一项为抽帧的频率,可控制在0.1-0.2之间,太高视频质量会很差。第二三项分别为抽帧开始和截至时间,0.1为抽帧介入的时间在视频10%的时间点,1为结束时间。最下方coefficients则要根据大模型选择对应的,它不分FP8或者FP16精度,只选择对应的分辨率即可。

该节点可以在不增加现存压力和时间消耗的基础之上,让视频画面添加更多细节,范围值在0-10,大家可以从1或1.5这种幅度累加。

提示词框,绿色为正提示词,红色为反向提示词。其实CLIP文本编码并无正反之分,不过工作流在制作时,手动区分了不同框的提示定义,并用颜色作为区分。红色的反向提示词是官方提供的,默认即可。

这里需要说明的是,这里是的,不过向我们不常玩AI的人来说,即便中文可能也想不到几个提示词,这时候就需要或者你习惯用的大语言模型了。支持中文填写借助DeepSeek

在K采样器中,主要更改的是步数steps,这里建议为20-40,与之前SD生图的数值基本差不多,步数越高视频画质越好,当然渲染的速度也更慢,下面的采样器则不用变。

都设置好之后,可以点击屏幕最下方的生成,即可开始渲染。相比文生图来说,图生视频要慢得多,在工作流几个框都变绿(检查错误)之后,可以用控制台查看实施进度。

生成之后可以实时预览效果,不过我们测试仅给了3个提示词,角色动作的随机性和崩坏的可能都比较大。但总体来说效果已经非常强大了。

和StableDiffusion的文生图一样,大家如果想生成更精细或风格更多样化的视频,可以去C站下载。里面同样分为大模型和LORA模型。

最后简单总结一下:

1.相比SD生图模型更大,单个大模型可达30GB甚至更高,许预留充足磁盘空间

1.模型选择的参数重要程度,模型精度(14B/32B)>分辨率(480p/720p)>运算精度(FP16/FP8)

2.前期训练可先用低精度,低分辨率生成,等关键词优化好再生成高质量。和文生图相比,图生视频太慢,时间成本太高

3.多角色多肢体的场景生成效果依然不太好,容易出现畸形

4.使用ComfyUI图生视频,其实和SD的文生图流程差不多,只不过改为了工作流模式

5.与大语言模型不同,ComfyUI图生视频对于显存和算力的要求都非常重要,即便显存符合要求,算力较低也会无限延长生成时间

6.与SD和大语言模型不同,除了显存外,图生视频还需要调用到3D渲染。所以边渲染边做别的工作会有些卡顿。

7.显卡选择建议最低16GB显存起步,RTX 5070 Ti及以上为宜。虽然RTX 5060 Ti也有16GB显存,但AI算力较低,适合SD文生图或大语言模型。

AI
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片