仅用视频就能生成配乐!Google DeepMind 亮相新 AI 技术「V2A 」
行銷管道 · 2024-06-19

将视频和音频配对并不新,但 DeepMind 强调 V2A 技术的独特之处在于,能理解视频的原始像素,并自动将生成的声音和视频同步,因此可以选择不输入文本指令。

Google DeepMind 亮相一个新影像配乐生成 AI 技术「V2A 」(video-to-audio),让用户通过文本指令和视频,生成与视频相匹配的戏剧配乐、逼真音效或对话。

此工具目前尚未普遍开放,因为仍需要接受「严格的安全评估和测试」。当它可用时,其输出内容将加上 Google 的 SynthID 浮水印,标记出 AI 生成的。

DeepMind 表示视频生成模型的发展速度很快,但目前许多系统只能生成无声的内容,无法生成和视频同步的音频,他们希望通过 V2A 技术将电影生成变为现实,也将工具定位为处理历史画面的工具。

将视频和音频配对并不新,但 DeepMind 强调 V2A 技术的独特之处在于,可以理解视频的原始像素,并自动将生成的声音与视频同步,因此可以选择不输入文本指令。

Google DeepMind 也给出了几段示范视频,其中包括用「汽车打滑、油门声、天使电辅音乐」等文本指令描述声音,可从以下片段看到音效如何与视频内容相匹配。

该工具还可以为视频生成数量「无限」的配乐,让用户能够使用无穷无尽的配乐选项。V2A 可加以和 DeepMind 的 AI 视频生成工具 Veo 配对来运用。

V2A  是通过视频、音频和注释来训练 AI 工具,包括「对声音的详细描述、口语对话逐字稿」,这让视频-音频生成器能将音频与视觉场景相配对。

DeepMind 目前正在尝试提升嘴唇动作和对话同步的能力,另外 DeepMind 也强调,视频品质很重要,任何颗粒状或失真的内容,都可能导致声音品质明显下降。

:Jocelyn
:Sisley

本文初稿为 INSIDE 使用 AI 编撰;快加入 INSIDE Google News 按下追踪,给你最新、最 IN 的科技新闻!

    热门文章
    英国确认各垂直行业的赌博税税率
    游戏风向
    菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
    东南亚资讯
    密西西比州众议院委员会推进提议增加赌场税的法案
    游戏风向
    准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
    广告营销
    JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
    体育游戏
    BETFAIR 网络攻击80万用户资料泄露
    游戏风向
    印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
    游戏风向
    巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
    游戏风向
    张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
    东南亚资讯
    超级PAC筹资4800万美元:体育博彩势力加码
    游戏风向
    新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
    游戏风向
    灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
    灰度头条
    哈萨克斯坦计划对在线赌场促销活动进行处罚
    游戏风向
    PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
    广告营销
    越南在线博彩业政策收紧 催生市场新机遇
    东南亚资讯
    首页
    游戏
    合作
    发现
    我的