Meta發表先進AI影片編輯與生成模型Emu Edit、Emu Video
· 2023-11-21

Meta以Emu模型為基礎,開發能精確執行文字指令的影像編輯模型Emu Edit,還有簡單且高效的文字轉影片(Text-to-Video,T2V)生成方法Emu Video

Meta延續之前在圖像生成基礎模型Emu上的研究,發表僅用文字指令就能準確編輯圖像的Emu Edit模型。另外,透過分解文字轉影片(Text-to-Video,T2V)的生成過程,開發團隊發展一種稱為Emu Video的方法,可以改善最終影片的品質和多樣性。

Emu Edit是一種創新的影像編輯方法,目的是要簡化各種影像操作任務,替影像編輯提供更方便的功能和更高的精確度。Emu Edit可以接受用戶指令,進行各種形式的編輯,包括區域和全域編輯、移除和添加背景,也能夠調整顏色並進行幾何轉換,偵測和分割任務也沒有問題。

Emu Edit把電腦視覺任務當作指令,納入到影像生成模型中,進而在影像生成和編輯中,提供更好的控制能力。研究人員指出,當前的圖像編輯模型,通常會過度修改圖像,或是修改不足,而Emu Edit的優勢在於能夠準確按照指令進行編輯。

Meta使用了1,000萬個合成樣本資料集訓練Emu Edit,這是目前同類中規模最大的資料集,每個樣本都包含輸入圖像、任務描述,以及目標輸出圖像。更大的資料集帶來更好的圖像編輯能力,使模型能夠忠實執行指令,產生比當前所有研究都要好的結果。

Emu Video則是一種簡單且高效的文字轉影片生成方法,該方法運用擴散模型,並以Emu作為實作基礎。開發團隊解釋,這種影片生成架構,能夠應對多種輸入,包括文字、圖像,或是文字和圖像的組合。

Emu Video將影片生成過程拆分為兩個步驟,首先是根據文字提示生成圖像,然後基於文字和生成圖像產生影片。這種拆分步驟的影片生成方法,讓研究人員可以有效地訓練生成模型,研究人員進一步解釋,這與過去Make-A-Video等需要一系列深層模型的研究不同,Emu Video更簡單,僅使用2個擴散模型,就能生成解析度512x512,每秒16影格長4秒鐘的影片。

人類的評估都更偏好Emu Video的成果,與之前的研究相比,在影片的品質以及文字提示的忠實程度都有更高的評價。在品質方面,有96%受訪者偏好Emu Video而非Make-A-Video方法,而對於文字提示的忠實度,Emu Video則獲得85%受訪者的青睞。而且Emu Video也能接受文字提示,將用戶提供的圖像動畫化,這項功能超越了過去模型的能力。

熱門文章
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
英國確認各垂直行業的賭博稅稅率
合規與政策
首頁
遊戲
合作
發現
我的