Google應用多模態大型語言模型解決影片生成任務
· 2023-12-22

有別於當前影片生成模型多為擴散模型,Google的多模態大型語言模型VideoPoet,可完成各種影片生成任務產出高品質影片,單一模型就可生成影片與配樂

VideoPoet能以前一秒的影片預測下1秒的影片,以連續預測的方式達到生成更長影片的目的,而這種方法不只可以有效延長影片,而且經過多次迭代後仍能保持影片主體的外觀不變。VideoPoet生成的影片也能夠以互動的方式編輯,像是改變影片中物體的運動,使其執行不同的動作,且編輯會從影片的第一個影格,或是中段的影格開始,提供了高度可編輯控制性。使用者也可以透過文字提示,添加需要的攝影機運動方式,藉此精確地控制攝影機的移動。

經過評估,VideoPoet能夠良好的執行影片生成任務,在多項基準測試中,VideoPoet較其他模型表現更好。研究人員要求評估者根據偏好選擇,在文字準確度方面,平均24%-35%VideoPoet的範例被認為更符合指令描述,而其他模型的比例則為8%-11%。評估者還更傾向選擇VideoPoet範例,認為其中41%-54%範例呈現出更有趣的運動方式,相較於其他模型比例只有11%-21%(下圖)。

VideoPoet的研究貢獻在於展示大型語言模型的能力,也具有生成高度競爭力影片的能力,特別是在高品質的動作表現方面。研究人員指出,對於未來研究,他們的框架會朝向支援任意形式生成任意形式內容的方向發展。

熱門文章
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
英國確認各垂直行業的賭博稅稅率
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
首頁
遊戲
合作
發現
我的