Nvidia公布可生成混合音乐、人声音效的AI模型Fugatto
支付動態 · 2024-11-26

Fugatto接受文本与音频文件输入,强调能根据提示生成出高度客制化的独特音效

Nvidia本周发表一个能依文本或音乐文件提示,生成或修改一首混合音乐、人声和音效的AI模型,名为Fugatto。

现今已有多家厂商,包括GoogleMeta推出可生成短曲、音效、或修改现有音乐的AI模型,但Nvidia公布的Fugatto模型号称生成技巧超越前者。Fugatto可依据用户输入的文本,或上传的音频文件,生成或修改音乐、人声或声音的元素组合。例如它可以根据用户文本提示生成音乐片段、在现有歌曲加入一种乐器声音(或移除),或是改变人声腔调或是情感,甚至发展出全新的表现方式。

Fugatto全名为「Foundational Generative Audio Transformer Opus 1」,是一个基础生成式transformer模型,为Nvidia在之前语音模型、音频编码及音频理解等基础上的研发成果。模型本身包含25亿参数,是在32颗H100 GPU的DGX系统,在一年多期间,以数百万音频样本及文本数据训练而成。

Fugatto训练团队涵括印度、巴西、中国、南韩和约旦。Nvidia指出,研究团队使用多面向策略产生数据和指令,以确保模型能胜任多种不同任务,他们也审视现有数据集,找出数据间的新关联性,在不需额外新数据集情况下,使模型学习到新任务且获致高准确性。

例如Fugatto使用名为ComposableART的技术,把原本个别使用的指令组合起来,像是组合多个指令,例如用户可要求它用悲伤情绪以法语腔说一段文本,还允许插入不同指令的功能,方便用户微调,像是腔调浓重或是悲伤程度。

Nvidia贴出了一段视频,展现Fugatto可为电影创造出震撼的配音。

Fugatto还具备时序插入(temporal interpolation)能力,可生成随时间改变的声音,像是暴风雨中由近而远传递的雷声,也提供声音地景的微调功能。此外,有别于其他多数模型只能重建模型团队输入的训练数据,Fugatto还让用户新创造全新的声音地景,像是风雨过后随着鸟鸣来到的清晨。

各家业者目前皆积极开发生成音乐、人声及音效的AI技术。ElevenLabs、DeepMind都在开发帮视频配音的技术、Meta去年公布可同时接受文本和音频输入的AudioBox。OpenAI也在今年稍早公布了以15秒样本生成人声的模型。

热门文章
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
BETFAIR 网络攻击80万用户资料泄露
游戏风向
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
英国确认各垂直行业的赌博税税率
游戏风向
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
首页
游戏
合作
发现
我的