挑戰OpenAI Sora,Meta影片生成AI模型Movie Gen明年登上IG
支付動態 · 2024-10-05

Meta強調Movie Gen可輸入圖片、影像和聲音提示,以生成影片和音訊、編輯現有影片,或是將圖片轉化為影片

目前Movie Gen還在開發中,在官方部落格中,Meta稱它是其AI媒體研究的重大突破,具備多模態能力,包括圖片、影像和聲音,讓開發人員輸入文字提示即可產生自製影片和音訊、編輯現有影片,或是將圖片轉化為影片。Meta聲稱Movie Gen效能品質在許多任務上已超越業界類似模型,包括Open AI Sora。

Movie Gen為Meta最新一代AI影片生成工具。第一代是2022年公佈能產製影音、圖片和3D動畫的Make-A-Scene,第二代是基於擴散模型的Llama Image基礎模型,後者提供更高影音品質及圖片編輯功能。Movie Gen屬於第三代,融合所有模態,允許使用者更大的影片控制能力。。

Movie Gen是以經授權或公開可用的資料集,所訓練而成的300億參數Transformer模型。它是一組具備引人入勝說故事能力的模型,具備4種模型版本,包括影片生成、個人化影片生成、精準影片編輯及聲音生成版本。

Movie Gen基礎模型具備物體動作、主題和物件互動、以及相機運動的理解能力,還能學習多種概念的動作,例如它能生成特寫、廣角、空照、低角度、第一人視角的影片,而且克服了生成影片常出現的物件扭曲/模糊、動作不自然、或罕見動作不完整(如貓熊彈鋼琴)。在影片功能上,Movie Gen能產出16 fps的高畫質16秒影片。在基礎版Movie Gen之外,Meta也提供允許以文字或影片控制、微調生成結果的版本。

此外並有可影片精準編輯版本,讓用戶以文字或影片提示精準控制想要的效果。這個版本讓用戶在生成的影片增加、移除或取代部份元素,或是變更背景及修改風格。Meta並強調,不同於別家工具,這項新工具不但具備更精準控制、不需要專業背景,它生成過程會保留原始內容,而只針對相關畫素施以變更。

Movie Gen還有一個130億參數的聲音生成模型版本,可接收影片或文字提示,生成最長45秒和影片同步的音訊,包括環境音、音效,或是樂器背景音樂。Meta還提供音訊延長工具,可生成任意長度的影片所需的聲音,並兼顧聲音品質、影音同步、文字聲音同步的效果需求。

Meta論文提供的A/B人為評估測試,比較Movie Gen和市面模型,包括Runway Gen3、OpenAI Sora、Kling 1.5、PikaLabs Sound的整體Net Win Rate,其中在影片生成效果方面,Meta的模型和Kling差不多,優於OpenAI Sora,並大勝Runway Gen 3,其他三項能力則大勝對手模型。

而和前代模型一樣,Movie Gen也將成為Meta未來多項新服務的底層引擎。除了IG,Meta預告,新模型未來也會整合在其他平臺產品中,包括提供以文字提示生成短影片Reels、或是生成祝福以WhatsApp傳送等。

熱門文章
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
英國確認各垂直行業的賭博稅稅率
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
首頁
遊戲
合作
發現
我的