Meta發表先進AI影片編輯與生成模型Emu Edit、Emu Video-灰度官网

Meta發表先進AI影片編輯與生成模型Emu Edit、Emu Video

· 2023-11-21

Meta以Emu模型為基礎，開發能精確執行文字指令的影像編輯模型Emu Edit，還有簡單且高效的文字轉影片（Text-to-Video，T2V）生成方法Emu Video

Meta延續之前在圖像生成基礎模型Emu上的研究，發表僅用文字指令就能準確編輯圖像的Emu Edit模型。另外，透過分解文字轉影片（Text-to-Video，T2V）的生成過程，開發團隊發展一種稱為Emu Video的方法，可以改善最終影片的品質和多樣性。

Emu Edit是一種創新的影像編輯方法，目的是要簡化各種影像操作任務，替影像編輯提供更方便的功能和更高的精確度。Emu Edit可以接受用戶指令，進行各種形式的編輯，包括區域和全域編輯、移除和添加背景，也能夠調整顏色並進行幾何轉換，偵測和分割任務也沒有問題。

Emu Edit把電腦視覺任務當作指令，納入到影像生成模型中，進而在影像生成和編輯中，提供更好的控制能力。研究人員指出，當前的圖像編輯模型，通常會過度修改圖像，或是修改不足，而Emu Edit的優勢在於能夠準確按照指令進行編輯。

Meta使用了1,000萬個合成樣本資料集訓練Emu Edit，這是目前同類中規模最大的資料集，每個樣本都包含輸入圖像、任務描述，以及目標輸出圖像。更大的資料集帶來更好的圖像編輯能力，使模型能夠忠實執行指令，產生比當前所有研究都要好的結果。

Emu Video則是一種簡單且高效的文字轉影片生成方法，該方法運用擴散模型，並以Emu作為實作基礎。開發團隊解釋，這種影片生成架構，能夠應對多種輸入，包括文字、圖像，或是文字和圖像的組合。

Emu Video將影片生成過程拆分為兩個步驟，首先是根據文字提示生成圖像，然後基於文字和生成圖像產生影片。這種拆分步驟的影片生成方法，讓研究人員可以有效地訓練生成模型，研究人員進一步解釋，這與過去Make-A-Video等需要一系列深層模型的研究不同，Emu Video更簡單，僅使用2個擴散模型，就能生成解析度512x512，每秒16影格長4秒鐘的影片。

人類的評估都更偏好Emu Video的成果，與之前的研究相比，在影片的品質以及文字提示的忠實程度都有更高的評價。在品質方面，有96％受訪者偏好Emu Video而非Make-A-Video方法，而對於文字提示的忠實度，Emu Video則獲得85％受訪者的青睞。而且Emu Video也能接受文字提示，將用戶提供的圖像動畫化，這項功能超越了過去模型的能力。

熱門文章

印度最高法院受理公益訴訟，要求全國禁封「偽裝」成社交遊戲的賭博平台

合規與政策