Google展示可生成動作連貫且高品質影片的時空擴散模型Lumiere
· 2024-01-29

Google發表新的文字轉影片擴散模型Lumiere,採用創新的時空U-Net(Space-Time U-Net,STUNet)基礎架構,能夠一次性生成高品質且動作連貫的短影片

Google新論文介紹影片生成模型Lumiere,Lumiere是一種文字轉影片擴散模型,該模型的主要目的,是創建真實、多樣且動作連貫的影片。該模型使用一種稱為時空U-Net(Space-Time U-Net,STUNet)基礎架構,官方提到,這種技術可以一次生成完整的影片長度,而不需要經過多次處理。

近年圖像生成模型有著巨大的進步,能夠根據複雜的文字提示,生成高解析度且逼真的圖像,不過,研究人員要將文字轉圖像技術應用到文字轉影片領域面臨挑戰,主要原因在於影片中的動作複雜性。

當前文字轉影片模型仍然無法生成長時間,有著高品質視覺效果且動作逼真的影片,研究人員解釋,這些模型通常採用分階段設計,會先生成幾個關鍵畫面,接著用時間超解析度(Temporal Super-Resolution,TSR)模型,填充關鍵畫面之間的畫面。該方法雖然在記憶體效率上表現良好,但是在生成連貫動作上有其限制。

Google的新模型Lumiere則採用不同的方法,使用STUNet架構一次性生成完整時間長度的影片,該架構能夠在空間和時間上同時降採樣(Downsample)訊號,在更緊湊的時空表示中進行大部分運算,這使得Lumiere能夠生成更長時間、動作更加連貫的影片。Lumiere一次可以生成80影格,以每秒16影格來算,可產生長達5秒的影片,研究人員提到,5秒的長度超過大多數媒體作品中平均鏡頭時長。

Lumiere建立於一個經過預訓練的文字轉圖像模型之上,首先會由基礎模型在像素空間生成圖像的基本草稿,接著透過一系列空間超解析度(SSR)模型,逐步提升這些圖像的解析度和細節。不過,採用空間超解析度技術針對影片的每一個時窗進行處理,可能會在不同時窗的邊界處,產生外觀上的不一致,這是因為每個時窗都是獨立處理,所以在時窗拼接時,可能會有細節上的差異。

研究人員採用了Multidiffusion方法來解決時窗上的不連續,藉由在不同的時窗上進行空間超解析度處理,並彙整處理過的片段,以確保影片片段在視覺上的一致性和連續性。

整體來說,Lumiere是一個強大的文字轉影片擴散模型,能夠生成高品質且動作連貫的影片,可用於多種影片編輯和內容創建任務上,諸如影片修復、圖像轉影片生成,或是生成特定風格影片等。

热门文章
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
英国确认各垂直行业的赌博税税率
游戏风向
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
2027 Global Game Connect(GGC)斯里兰卡招商全面开启!业务人脉尽在掌握!
灰度头条
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
BETFAIR 网络攻击80万用户资料泄露
游戏风向
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
首页
游戏
合作
发现
我的