テンセントの動画生成OSSモデル HunyuanVideoをRTX3090でConfyUIを使って動かす

とにかくまずはクイックに動かしてみたいという人向けに。

手順概説

注意1：WSLでやること(tritonがなくて動かないはず)
注意2: VRAM24GBで実装すること(最大利用VRAMが21GB程度であった)

カスタムノードにComfyUI-HunyuanVideoWrapperを適用
モデルを./models/diffusion_modelsに配置
ex)hunyuan_video_720_cfgdistill_bf16.safetensors
VAEを./models/vaeに配置
ex)hunyuan_video_vae_bf16.safetensors
なければ、`models/LLM`のディレクトリを作成しておく。
custom_nodes/ComfyUI-HunyuanVideoWrapper/examples以下のワークフローを使って実行()
※RTX3090(VRAM24GB)ではhyvideo_lowvram_blockswap_test.jsonしか動作できなかった。

その他
モデルとかVAEはHuggingFaceからとれるが、以下で必要なものだけにしてくれているhttps://civitai.com/models/1013919/hoda-hunyuan-video-pack

公式の実装ではVRAM>45GBで動かないところが本実装ならかろうじて動く。使用率や温度はそこまで跳ね上がっていない。

ただしのっぺりした感じの動画になってしまわざるを得ないところはある。大学生がサークルで作ったくらいのクオリティ
VRAM12GBのRTX4070はout of memoryでそもそも動かない。

RTX5090が待たれる、、、
あと、LORAとかもできるみたいだから品質を高めていきたい。