仅用视频就能生成配乐！Google DeepMind 亮相新 AI 技术「V2A 」-灰度官网

仅用视频就能生成配乐！Google DeepMind 亮相新 AI 技术「V2A 」

行銷管道 · 2024-06-19

将视频和音频配对并不新，但 DeepMind 强调 V2A 技术的独特之处在于，能理解视频的原始像素，并自动将生成的声音和视频同步，因此可以选择不输入文本指令。

Google DeepMind 亮相一个新影像配乐生成 AI 技术「V2A 」（video-to-audio），让用户通过文本指令和视频，生成与视频相匹配的戏剧配乐、逼真音效或对话。

此工具目前尚未普遍开放，因为仍需要接受「严格的安全评估和测试」。当它可用时，其输出内容将加上 Google 的 SynthID 浮水印，标记出 AI 生成的。

DeepMind 表示视频生成模型的发展速度很快，但目前许多系统只能生成无声的内容，无法生成和视频同步的音频，他们希望通过 V2A 技术将电影生成变为现实，也将工具定位为处理历史画面的工具。

将视频和音频配对并不新，但 DeepMind 强调 V2A 技术的独特之处在于，可以理解视频的原始像素，并自动将生成的声音与视频同步，因此可以选择不输入文本指令。

Google DeepMind 也给出了几段示范视频，其中包括用「汽车打滑、油门声、天使电辅音乐」等文本指令描述声音，可从以下片段看到音效如何与视频内容相匹配。

该工具还可以为视频生成数量「无限」的配乐，让用户能够使用无穷无尽的配乐选项。V2A 可加以和 DeepMind 的 AI 视频生成工具 Veo 配对来运用。

V2A 是通过视频、音频和注释来训练 AI 工具，包括「对声音的详细描述、口语对话逐字稿」，这让视频-音频生成器能将音频与视觉场景相配对。

DeepMind 目前正在尝试提升嘴唇动作和对话同步的能力，另外 DeepMind 也强调，视频品质很重要，任何颗粒状或失真的内容，都可能导致声音品质明显下降。

：Jocelyn
：Sisley

本文初稿为 INSIDE 使用 AI 编撰；快加入 INSIDE Google News 按下追踪，给你最新、最 IN 的科技新闻！

热门文章

斯里兰卡博弈产业大转型，官方：剑指南亚拉斯维加斯

游戏风向

BETFAIR 网络攻击80万用户资料泄露

游戏风向

越南在线博彩业政策收紧催生市场新机遇

东南亚资讯

巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域

游戏风向

亚洲游戏市场观察：15大市场热门游戏与用户趋势

线上游戏

Zenith携手HUIDU，冠名赞助2026年世界杯嘉年华官方巡回活动

线上游戏

印度最高法院受理公益诉讼，要求全国禁封“伪装”成社交游戏的赌博平台

游戏风向

2027 Global Game Connect（GGC）斯里兰卡招商全面开启！业务人脉尽在掌握！

灰度头条

JILI 宣布与全球板球传奇 AB de Villiers（ABD）达成重磅战略合作

体育游戏

新泽西州7月博彩收入创6.06亿美元新高，颁布禁令

游戏风向

准备好了将你的收益最大化吗？尝试ProPush.me Constructor！

广告营销

巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易

支付动态

英国确认各垂直行业的赌博税税率

游戏风向

密西西比州众议院委员会推进提议增加赌场税的法案

游戏风向

菲律宾博彩技术赛道迎来新变局，B2B 供应模式加速渗透

东南亚资讯

首页

游戏

合作

发现

我的