Meta發表先進AI影片編輯與生成模型Emu Edit、Emu Video
· 2023-11-21

Meta以Emu模型為基礎,開發能精確執行文字指令的影像編輯模型Emu Edit,還有簡單且高效的文字轉影片(Text-to-Video,T2V)生成方法Emu Video

Meta延續之前在圖像生成基礎模型Emu上的研究,發表僅用文字指令就能準確編輯圖像的Emu Edit模型。另外,透過分解文字轉影片(Text-to-Video,T2V)的生成過程,開發團隊發展一種稱為Emu Video的方法,可以改善最終影片的品質和多樣性。

Emu Edit是一種創新的影像編輯方法,目的是要簡化各種影像操作任務,替影像編輯提供更方便的功能和更高的精確度。Emu Edit可以接受用戶指令,進行各種形式的編輯,包括區域和全域編輯、移除和添加背景,也能夠調整顏色並進行幾何轉換,偵測和分割任務也沒有問題。

Emu Edit把電腦視覺任務當作指令,納入到影像生成模型中,進而在影像生成和編輯中,提供更好的控制能力。研究人員指出,當前的圖像編輯模型,通常會過度修改圖像,或是修改不足,而Emu Edit的優勢在於能夠準確按照指令進行編輯。

Meta使用了1,000萬個合成樣本資料集訓練Emu Edit,這是目前同類中規模最大的資料集,每個樣本都包含輸入圖像、任務描述,以及目標輸出圖像。更大的資料集帶來更好的圖像編輯能力,使模型能夠忠實執行指令,產生比當前所有研究都要好的結果。

Emu Video則是一種簡單且高效的文字轉影片生成方法,該方法運用擴散模型,並以Emu作為實作基礎。開發團隊解釋,這種影片生成架構,能夠應對多種輸入,包括文字、圖像,或是文字和圖像的組合。

Emu Video將影片生成過程拆分為兩個步驟,首先是根據文字提示生成圖像,然後基於文字和生成圖像產生影片。這種拆分步驟的影片生成方法,讓研究人員可以有效地訓練生成模型,研究人員進一步解釋,這與過去Make-A-Video等需要一系列深層模型的研究不同,Emu Video更簡單,僅使用2個擴散模型,就能生成解析度512x512,每秒16影格長4秒鐘的影片。

人類的評估都更偏好Emu Video的成果,與之前的研究相比,在影片的品質以及文字提示的忠實程度都有更高的評價。在品質方面,有96%受訪者偏好Emu Video而非Make-A-Video方法,而對於文字提示的忠實度,Emu Video則獲得85%受訪者的青睞。而且Emu Video也能接受文字提示,將用戶提供的圖像動畫化,這項功能超越了過去模型的能力。

热门文章
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
2027 Global Game Connect(GGC)斯里兰卡招商全面开启!业务人脉尽在掌握!
灰度头条
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
亚洲游戏市场观察:15大市场热门游戏与用户趋势
线上游戏
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
BETFAIR 网络攻击80万用户资料泄露
游戏风向
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
首页
游戏
合作
发现
我的