DeepMind正在研究如何幫影片生成聲音
支付動態 · 2024-06-18

DeepMind正在發展能夠替AI影片生成背景聲音的V2A技術,目標是透過自然語言的提示,就能替原本無聲的生成式影片,加上相對應且同步的對話、音效或配樂

Google Deepmind

Alphabet旗下的AI子公司DeepMind正在研究如何幫「生成式影片」生成背景聲音,利用影片至聲音(video-to-audio,V2A)技術來替這些原本無聲的影片加上應有的對話、音效或配樂。

目前DeepMind的V2A技術並不是直接餵入影片就能生成聲音,而是結合了自然語言的提示以幫螢幕上的畫麵配音,相容於諸如Veo等影片生成模型,並支援包括檔案、無聲電影等影片內容。

當使用者輸入音訊及文字提示時,V2A便可生成與影片同步的音訊波形。它會先將所輸入的影片及提示輸入數位化,再利用擴散模型反覆運算,最終生成一個壓縮的聲音檔案,再由系統將其解碼,藉以產生與影片畫麵高度協調的背景聲音,完全不需要手動對齊影片及所生成的聲音。

在V2A技術的展示影片中,DeepMind團隊輸入了一個在黑暗中行走的影片畫麵,再提供「電影、恐怖片、音樂、緊張、混凝土上的腳步聲」等文字提示,V2A就能生成恐怖片的背景音樂;還能幫無聲的擊鼓畫麵配樂;或是要求它生成搭配畫麵的海洋音樂。

此外,V2A可替任何影片生成無限數量的音軌,還能選擇正向或反向的文字提示,以要求所生成的聲音更貼近或遠離某些情境。

透過對影片、聲音及註譯的訓練,V2A現階段已能連結特定的音訊與不同的視覺場景,亦能對註釋或轉錄文字中的資訊作出反應;DeepMind也正在改善V2A生成結果中關於說話的口型同步能力。

熱門文章
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
英國確認各垂直行業的賭博稅稅率
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
首頁
遊戲
合作
發現
我的