ElevenLabs公布AI音效、人声生成模型-灰度官网

ElevenLabs公布AI音效、人声生成模型

支付動態 · 2024-06-03

开发语音生成模型的ElevenLabs与知名图库和音频平台Shutterstock合作，发布可根据文本提示生成音效的Text to Sound Effects服务

ElevenLabs专门从事语音和声音应用研究，去年公布AI声音生成的AI平台Text to Speech，可让用户在文本对话中设置性别、年龄、口音和说话风格合成逼真人声，并于同年募得近2,000万美元的A轮资金。ElevenLabs今年2月搭上OpenAI视频AI生成模型Sora列车，预告可为视频配音的AI声音模型，并在上周正式向大众公开Text to Sound Effects，包括免费版及付费版。

Text to Sound Effects目的在为电影或电视节目、电玩开发商，甚至社群内容创作者、个人提供工具，使其得以快速且大规模生成丰富、沈浸式声音场景，而且不需大成本。只要在提示窗口输入文本，就可以生成音效、22秒的乐器演奏音频、声音场景或各种角色声音。该公司网页并提供多种范例说明输入的文本提示和生成音效，包括动物叫声、打雷、爆炸声、恐怖电影音效，或是吉他等乐器演奏。

为训练这新工具，ElevenLabs和知名图库和音频平台Shutterstock合作，以其多样化及高品质的合法声音档微调其AI模型。

Text to Sound Effects并提供用户微调工具，让用户能针对一种对象再细分出不同类别，例如「脚步声」可以文本再微调成是高跟鞋、靴子或球鞋，或是走在沙地、雪地或叶子上的声音。完成后，用户可选择下载声音或存储在ElevenLabs平台上。

Text to Sound Effects提供免费及付费版。付费版是通过在付费帐号供用户使用。免费版用户需要在生成的音乐加上elevenlabs.io，以说明来自ElevenLabs。付费帐号用户则不需注明。不过不论是哪个版本，版权责任都由用户自付。

收费标准是根据生成音频的长度控制参数计算。若用户设置为最适长度，会被收取200字符的费用，如果用户想自行控制长度，则会被设置该长度每秒40字符的费用。收费是每运行4次生成计算一次。收费是每次调用（而非下载），即每按一次「Generate」就多一次费用。但若用户认为计算结果有误，需自行向业者（[email protected]）反映。

根据ElevenLabs说明，付费帐号分成3类。Creator为0.30美元/1,000字符，Pro为 0.24美元/1,000字符，Scale则为 0.18美元/1,000字符。

热门文章

超级PAC筹资4800万美元：体育博彩势力加码

游戏风向