CogVideo – 文字生成影片開源模型

16次閱讀
尚無留言

CogVideo(文字生成影片開源模型)簡介

CogVideo 是一個文字生成影片開源模型,由清華大學訊飛聯合實驗室推出。該專案目前開源了兩個影片生成模型:CogVideo(ICLR 2023) 和 CogVideoX 系列。該模型能夠根據文字輸入生成相對高幀率的影片。

CogVideo 是首個開源的預訓練文字到影片生成模型,能夠根據文字輸入生成相對高幀率的影片。

CogVideoX 則是 CogVideo 的升級版本,是清華訊飛實驗室在 2024 年開源的影片生成模型系列。目前已開源了 CogVideoX-2B 和 CogVideoX-5B 兩個模型,分別具有 20 億和 50 億參數。與 CogVideo 相比,CogVideoX 系列在生成影片品質和視覺效果方面有了大幅提升。

CogVideoX 系列在模型架構、訓練策略等多方面進行了創新,例如採用了 Diffusion Model、3D Casual VAE 等先進技術。該系列模型支援量化推理,能在較低算力設備上運行,且支援英語輸入和長文本輸入。

CogVideo - 文字生成影片開源模型

CogVideo(文字生成影片開源模型)官網

提供了線上 Demo,打開線上 Demo 後可以輸入中文描述,體驗文字到影片生成效果。

正文完
 0
評論(尚無留言)
验证码