Meta開源文字轉音效、配樂的AI框架AudioCraft
· 2023-08-04

AudioCraft是一個開發框架,當中包含Meta已發表的生成式AI模型MusicGen、AudioGen,以及聲音壓縮技術Encodec,經訓練後能根據使用者輸入的文字,產生高品質及逼真的聲效或音樂

Meta

Meta周三宣布開源可以輸入文字生成音樂的AI框架AudioCraft,讓不會譜曲或不懂音樂的遊戲或VR開發人員,也能製作精彩的音效或配樂。

AudioCraft是一個開發框架。經訓練後,就能根據使用者輸入的文字,產生高品質及逼真的聲音或音樂。AudioCraft包含三個模型,MusicGen、AudioGen和EnCodec。其中MusicGen以Meta自有及專屬授權音樂訓練而成,可以文字生成音樂,AudioGen是以公開聲音資料集訓練,能生成音效。MusicGen和AudioGen是Meta去年分別於6月及10月發表的模型。

Encodec則是去年11月發表的聲音壓縮技術,號稱壓縮效果是MP3的10倍。AudioCraft包含的Encodec解碼技術為新版本,較前版減少壓縮失真率。

經過預訓練的AudioGen模型可產生環境音效及聲音,如狗吠、汽車喇叭、木階梯上樓聲等。Meta指出,開源AudioGen旨在提供研究並促進產業界的了解,允許開發商以自有資料集訓練自己的模型。

Meta也說明AudioGen和傳統生成音樂的AI模型不同。傳統訓練音樂生成AI模型,是透過音樂的象徵表現方式,如MIDI或鋼琴打孔紙卷。但是此類方法無法完全掌握音樂表現的細微差異及風格元素。進階一點的是用自我監督式音頻表示法學習(audio representation learning)及多種階層式(cascaded model)模型來產生音樂,將原始音樂輸入複雜系統以抓取訊號較長範圍的結構,以利生成高品質聲音,但效果仍然有待改進。

Meta表示,AudioCraft家族模型則簡化音訊生成模型的整體設計,讓用戶以自然語言輸入,不需寫程式,而生成高品質且品質穩定的聲音,涵括音效及配樂,不但生成音訊容易、快速、也能重覆使用,還具有壓縮音訊演算法,適合不同需求的用戶。

Meta的競爭對手也推出了音訊生成AI模型。OpenAI 2020年發表音樂生成的機器學習框架Jukebox,而Google今年5月也公布了MusicLM。而一個AI平臺Riffusion則以Stable Diffusion的AI模型為基礎,提供以文字生成音樂的服務。

這是Meta開放使用的最新AI模型。上周Meta也聯手微軟公布了可免費商用的大型文字語言模型(Large Language Model)Llama-2。

热门文章
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
英国确认各垂直行业的赌博税税率
游戏风向
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
首页
游戏
合作
发现
我的