Meta开源首个多模态语言模型Meta Spirit LM
支付動態 · 2024-10-21

Meta Spirit LM可生成听起来更自然的语音,还具备跨模学习新任务的能力,诸如自动语音辨识,文本转语音,或是语音分类等

GitHub

Meta上周开源了首个多模态语言模型Meta Spirit LM,该模型不论是在输出或输入都能集成文本及语音。

传统的AI语音模型是仰赖自动语音辨识(ASR)来运行转录,继之由大型语言模型来生成文本,再借由文本转语音(TTS)将文本变成语音,不过,这样的处理方式会削弱原有声音的表达能力。而Meta Spirit LM即可解决此一限制。

Meta Spirit LM是在单字等级的文本及语音数据集上交错训练的,目的是让它具备跨模态生成能力,它有两种版本,两者都具备文本模型的语义生成能力,以及语音模型的表达能力,其中,Spirit LM Base使用语音Token来处理语音,而Spirit LM Expressive则是使用音调及风格Token来捕捉语气,包括兴奋、生气或惊讶,之后生成能够反映出该语气的声音。换句话说,自Spirit LM Base生成的语音听起来就像是机器人,而Spirit LM Expressive则能带有情绪。

Meta表示,Meta Spirit LM允许人们生成听起来更自然的语音,还具备跨模学习新任务的能力,诸如自动语音辨识,文本转语音,或是语音分类等,期待该研究能够抛砖引玉,让社群继续开发语音与文本的集成。

该研究源自Meta的基础AI研究(Fundamental AI Research,FAIR)团队,已开放外界下载其代码与模型权重,亦采用FAIR的非商业授权,只能应用在研究、开发、教育或分析,不得用于商业利益或获利。

热门文章
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
BETFAIR 网络攻击80万用户资料泄露
游戏风向
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
2027 Global Game Connect(GGC)斯里兰卡招商全面开启!业务人脉尽在掌握!
灰度头条
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
英国确认各垂直行业的赌博税税率
游戏风向
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
亚洲游戏市场观察:15大市场热门游戏与用户趋势
线上游戏
灰度世界杯嘉年华狂欢派对吉隆坡站即将开启,业务拓展人脉社交从马来西亚开始
灰度头条
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
首页
游戏
合作
发现
我的