本工作由加州大學(xué)洛杉磯分校與字節(jié) Seed 等團(tuán)隊聯(lián)合完成。
在擴(kuò)散模型持續(xù)引領(lǐng)視覺生成浪潮的今天,圖像生成早已臻于極致,但視頻生成仍被一個關(guān)鍵瓶頸困住——時長限制。目前多數(shù)模型還停留在數(shù)秒短視頻的生成,Self-Forcing++讓視頻生成首次跨入4 分鐘高質(zhì)量長視頻時代,且無需任何長視頻數(shù)據(jù)再訓(xùn)練。先展示一段 100 秒的生成視頻:

本工作由加州大學(xué)洛杉磯分校與字節(jié) Seed 等團(tuán)隊聯(lián)合完成。
在擴(kuò)散模型持續(xù)引領(lǐng)視覺生成浪潮的今天,圖像生成早已臻于極致,但視頻生成仍被一個關(guān)鍵瓶頸困住——時長限制。目前多數(shù)模型還停留在數(shù)秒短視頻的生成,Self-Forcing++讓視頻生成首次跨入4 分鐘高質(zhì)量長視頻時代,且無需任何長視頻數(shù)據(jù)再訓(xùn)練。先展示一段 100 秒的生成視頻:
