挑战OpenAI Sora,Meta视频生成AI模型Movie Gen明年登上IG
支付動態 · 2024-10-05

Meta强调Movie Gen可输入图片、影像和声音提示,以生成视频和音频、编辑现有视频,或是将图片转化为视频

目前Movie Gen还在开发中,在官方博客中,Meta称它是其AI媒体研究的重大突破,具备多模态能力,包括图片、影像和声音,让开发人员输入文本提示即可产生自制视频和音频、编辑现有视频,或是将图片转化为视频。Meta声称Movie Gen性能品质在许多任务上已超越业界类似模型,包括Open AI Sora。

Movie Gen为Meta最新一代AI视频生成工具。第一代是2022年公布能产制影音、图片和3D动画的Make-A-Scene,第二代是基于扩散模型的Llama Image基础模型,后者提供更高影音品质及图片编辑功能。Movie Gen属于第三代,融合所有模态,允许用户更大的视频控制能力。。

Movie Gen是以经授权或公开可用的数据集,所训练而成的300亿参数Transformer模型。它是一组具备引人入胜说故事能力的模型,具备4种模型版本,包括视频生成、个人化视频生成、精准视频编辑及声音生成版本。

Movie Gen基础模型具备物体动作、主题和对象交互、以及相机运动的理解能力,还能学习多种概念的动作,例如它能生成特写、广角、空照、低角度、第一人视角的视频,而且克服了生成视频常出现的对象扭曲/模糊、动作不自然、或罕见动作不完整(如猫熊弹钢琴)。在视频功能上,Movie Gen能产出16 fps的高清16秒视频。在基础版Movie Gen之外,Meta也提供允许以文本或视频控制、微调生成结果的版本。

此外并有可视频精准编辑版本,让用户以文本或视频提示精准控制想要的效果。这个版本让用户在生成的视频增加、移除或取代部份元素,或是变更背景及修改风格。Meta并强调,不同于别家工具,这项新工具不但具备更精准控制、不需要专业背景,它生成过程会保留原始内容,而只针对相关像素施以变更。

Movie Gen还有一个130亿参数的声音生成模型版本,可接收视频或文本提示,生成最长45秒和视频同步的音频,包括环境音、音效,或是乐器背景音乐。Meta还提供音频延长工具,可生成任意长度的视频所需的声音,并兼顾声音品质、影音同步、文本声音同步的效果需求。

Meta论文提供的A/B人为评估测试,比较Movie Gen和市面模型,包括Runway Gen3、OpenAI Sora、Kling 1.5、PikaLabs Sound的整体Net Win Rate,其中在视频生成效果方面,Meta的模型和Kling差不多,优于OpenAI Sora,并大胜Runway Gen 3,其他三项能力则大胜对手模型。

而和前代模型一样,Movie Gen也将成为Meta未来多项新服务的底层引擎。除了IG,Meta预告,新模型未来也会集成在其他平台产品中,包括提供以文本提示生成短视频Reels、或是生成祝福以WhatsApp发送等。

热门文章
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
英国确认各垂直行业的赌博税税率
游戏风向
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
2027 Global Game Connect(GGC)斯里兰卡招商全面开启!业务人脉尽在掌握!
灰度头条
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
灰度世界杯嘉年华狂欢派对吉隆坡站即将开启,业务拓展人脉社交从马来西亚开始
灰度头条
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
BETFAIR 网络攻击80万用户资料泄露
游戏风向
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
首页
游戏
合作
发现
我的