

将视频和音频配对并不新,但 DeepMind 强调 V2A 技术的独特之处在于,能理解视频的原始像素,并自动将生成的声音和视频同步,因此可以选择不输入文本指令。
Google DeepMind 亮相一个新影像配乐生成 AI 技术「V2A 」(video-to-audio),让用户通过文本指令和视频,生成与视频相匹配的戏剧配乐、逼真音效或对话。
此工具目前尚未普遍开放,因为仍需要接受「严格的安全评估和测试」。当它可用时,其输出内容将加上 Google 的 SynthID 浮水印,标记出 AI 生成的。
DeepMind 表示视频生成模型的发展速度很快,但目前许多系统只能生成无声的内容,无法生成和视频同步的音频,他们希望通过 V2A 技术将电影生成变为现实,也将工具定位为处理历史画面的工具。
将视频和音频配对并不新,但 DeepMind 强调 V2A 技术的独特之处在于,可以理解视频的原始像素,并自动将生成的声音与视频同步,因此可以选择不输入文本指令。
Google DeepMind 也给出了几段示范视频,其中包括用「汽车打滑、油门声、天使电辅音乐」等文本指令描述声音,可从以下片段看到音效如何与视频内容相匹配。
该工具还可以为视频生成数量「无限」的配乐,让用户能够使用无穷无尽的配乐选项。V2A 可加以和 DeepMind 的 AI 视频生成工具 Veo 配对来运用。
V2A 是通过视频、音频和注释来训练 AI 工具,包括「对声音的详细描述、口语对话逐字稿」,这让视频-音频生成器能将音频与视觉场景相配对。
DeepMind 目前正在尝试提升嘴唇动作和对话同步的能力,另外 DeepMind 也强调,视频品质很重要,任何颗粒状或失真的内容,都可能导致声音品质明显下降。
:Jocelyn
:Sisley
本文初稿为 INSIDE 使用 AI 编撰;快加入 INSIDE Google News 按下追踪,给你最新、最 IN 的科技新闻!