Meta開源文字轉音效、配樂的AI框架AudioCraft
· 2023-08-04

AudioCraft是一個開發框架,當中包含Meta已發表的生成式AI模型MusicGen、AudioGen,以及聲音壓縮技術Encodec,經訓練後能根據使用者輸入的文字,產生高品質及逼真的聲效或音樂

Meta

Meta周三宣布開源可以輸入文字生成音樂的AI框架AudioCraft,讓不會譜曲或不懂音樂的遊戲或VR開發人員,也能製作精彩的音效或配樂。

AudioCraft是一個開發框架。經訓練後,就能根據使用者輸入的文字,產生高品質及逼真的聲音或音樂。AudioCraft包含三個模型,MusicGen、AudioGen和EnCodec。其中MusicGen以Meta自有及專屬授權音樂訓練而成,可以文字生成音樂,AudioGen是以公開聲音資料集訓練,能生成音效。MusicGen和AudioGen是Meta去年分別於6月及10月發表的模型。

Encodec則是去年11月發表的聲音壓縮技術,號稱壓縮效果是MP3的10倍。AudioCraft包含的Encodec解碼技術為新版本,較前版減少壓縮失真率。

經過預訓練的AudioGen模型可產生環境音效及聲音,如狗吠、汽車喇叭、木階梯上樓聲等。Meta指出,開源AudioGen旨在提供研究並促進產業界的了解,允許開發商以自有資料集訓練自己的模型。

Meta也說明AudioGen和傳統生成音樂的AI模型不同。傳統訓練音樂生成AI模型,是透過音樂的象徵表現方式,如MIDI或鋼琴打孔紙卷。但是此類方法無法完全掌握音樂表現的細微差異及風格元素。進階一點的是用自我監督式音頻表示法學習(audio representation learning)及多種階層式(cascaded model)模型來產生音樂,將原始音樂輸入複雜系統以抓取訊號較長範圍的結構,以利生成高品質聲音,但效果仍然有待改進。

Meta表示,AudioCraft家族模型則簡化音訊生成模型的整體設計,讓用戶以自然語言輸入,不需寫程式,而生成高品質且品質穩定的聲音,涵括音效及配樂,不但生成音訊容易、快速、也能重覆使用,還具有壓縮音訊演算法,適合不同需求的用戶。

Meta的競爭對手也推出了音訊生成AI模型。OpenAI 2020年發表音樂生成的機器學習框架Jukebox,而Google今年5月也公布了MusicLM。而一個AI平臺Riffusion則以Stable Diffusion的AI模型為基礎,提供以文字生成音樂的服務。

這是Meta開放使用的最新AI模型。上周Meta也聯手微軟公布了可免費商用的大型文字語言模型(Large Language Model)Llama-2。

熱門文章
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
首頁
遊戲
合作
發現
我的