Google應用多模態大型語言模型解決影片生成任務
· 2023-12-22

有別於當前影片生成模型多為擴散模型,Google的多模態大型語言模型VideoPoet,可完成各種影片生成任務產出高品質影片,單一模型就可生成影片與配樂

VideoPoet能以前一秒的影片預測下1秒的影片,以連續預測的方式達到生成更長影片的目的,而這種方法不只可以有效延長影片,而且經過多次迭代後仍能保持影片主體的外觀不變。VideoPoet生成的影片也能夠以互動的方式編輯,像是改變影片中物體的運動,使其執行不同的動作,且編輯會從影片的第一個影格,或是中段的影格開始,提供了高度可編輯控制性。使用者也可以透過文字提示,添加需要的攝影機運動方式,藉此精確地控制攝影機的移動。

經過評估,VideoPoet能夠良好的執行影片生成任務,在多項基準測試中,VideoPoet較其他模型表現更好。研究人員要求評估者根據偏好選擇,在文字準確度方面,平均24%-35%VideoPoet的範例被認為更符合指令描述,而其他模型的比例則為8%-11%。評估者還更傾向選擇VideoPoet範例,認為其中41%-54%範例呈現出更有趣的運動方式,相較於其他模型比例只有11%-21%(下圖)。

VideoPoet的研究貢獻在於展示大型語言模型的能力,也具有生成高度競爭力影片的能力,特別是在高品質的動作表現方面。研究人員指出,對於未來研究,他們的框架會朝向支援任意形式生成任意形式內容的方向發展。

热门文章
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
灰度世界杯嘉年华狂欢派对吉隆坡站即将开启,业务拓展人脉社交从马来西亚开始
灰度头条
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
亚洲游戏市场观察:15大市场热门游戏与用户趋势
线上游戏
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
首页
游戏
合作
发现
我的