僅用影片就能生成配樂!Google DeepMind 亮相新 AI 技術「V2A 」
行銷管道 · 2024-06-19

將影片和音訊配對並不新,但 DeepMind 強調 V2A 技術的獨特之處在於,能理解影片的原始畫素,並自動將生成的聲音和影片同步,因此可以選擇不輸入文字指令。

Google DeepMind 亮相一個新影像配樂生成 AI 技術「V2A 」(video-to-audio),讓使用者透過文字指令和影片,生成與影片相匹配的戲劇配樂、逼真音效或對話。

此工具目前尚未普遍開放,因為仍需要接受「嚴格的安全評估和測試」。當它可用時,其輸出內容將加上 Google 的 SynthID 浮水印,標記出 AI 生成的。

DeepMind 表示影片生成模型的發展速度很快,但目前許多系統只能生成無聲的內容,無法生成和影片同步的音訊,他們希望透過 V2A 技術將電影生成變為現實,也將工具定位為處理歷史畫麵的工具。

將影片和音訊配對並不新,但 DeepMind 強調 V2A 技術的獨特之處在於,可以理解影片的原始畫素,並自動將生成的聲音與影片同步,因此可以選擇不輸入文字指令。

Google DeepMind 也給出了幾段示範影片,其中包括用「汽車打滑、油門聲、天使電子音樂」等文字指令描述聲音,可從以下片段看到音效如何與影片內容相匹配。

該工具還可以為影片生成數量「無限」的配樂,讓用戶能夠使用無窮無盡的配樂選項。V2A 可加以和 DeepMind 的 AI 影片生成工具 Veo 配對來運用。

V2A  是透過影片、音訊和註釋來訓練 AI 工具,包括「對聲音的詳細描述、口語對話逐字稿」,這讓影片-音訊生成器能將音訊與視覺場景相配對。

DeepMind 目前正在嘗試提升嘴唇動作和對話同步的能力,另外 DeepMind 也強調,影片品質很重要,任何顆粒狀或失真的內容,都可能導致聲音品質明顯下降。

:Jocelyn
:Sisley

本文初稿為 INSIDE 使用 AI 編撰;快加入 INSIDE Google News 按下追蹤,給你最新、最 IN 的科技新聞!

    熱門文章
    西班牙監管機構警告在線賭博平臺存在身份盜竊行為
    合規與政策
    越南博彩管控逐步放寬,惟本土需求仍顯乏力
    東南亞資訊
    超級PAC籌資4800萬美元:體育博彩勢力加碼
    合規與政策
    越南在線博彩業政策收緊 催生市場新機遇
    東南亞資訊
    英國確認各垂直行業的賭博稅稅率
    合規與政策
    JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
    體育遊戲
    灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
    灰度頭條
    哈薩克計劃對線上賭場促銷活動進行處罰
    合規與政策
    菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
    東南亞資訊
    橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
    灰度頭條
    GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
    灰度頭條
    菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
    東南亞資訊
    印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
    合規與政策
    斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
    合規與政策
    印第安納州在線賭場法案在眾議院委員會停滯不前
    合規與政策
    首頁
    遊戲
    合作
    發現
    我的