Meta發表也能產生圖說的圖像生成模型CM3Leon
· 2023-07-18

Meta強調只用30億Token文字資料訓練的CM3Leon,在生成圖像說明、回答圖像問題任務表現上,與具備400億Token的OpenFlamingo相當

Meta

Meta上周發表了可同時支援文字與圖像生成的CM3Leon模型,這是史上第一個由純文字語言模型配方所訓練的多模態模型,並宣稱其圖像生成所使用的訓練運算資源只要其它方法的1/5,即可達到先進效能。

CM3Leon是個基於Token、檢索增強與decoder-only的模型,它採用因果隱蔽混合模態(Causal Masked Mixed-Modal,CM3)架構,代表該模型得以僅關注之前的元素來生成輸出序列,確保生成內容的連貫性,且於訓練過程中能夠忽視或隱蔽某些元件,以生成更好的結果,還可同時處理文字及圖像的輸入。

Meta強調CM3Leon是個通用模型,透過單一模型即可處理許多不同的任務,像是以文字描述來生成圖像,也能以文字描述來編輯圖像,或者是要求該模型替圖像生成圖說等。

例如以文字要求它生成「在撒哈拉沙漠的一株小仙人掌戴上了一頂鑲有霓虹太陽眼鏡的草帽」的圖像;也能利用文字幫《戴珍珠耳環的少女》戴上墨鏡,或是以文字調整天空的顏色;使用者還可要求CM3Leon替圖像生成圖說,以文字描繪圖像中的元素。

_Meta

研究人員表示,CM3Leon僅使用30億個Token的文字資料進行訓練,大幅低於OpenFlamingo的400億個Token與Flamingo的1,000億個Token,但它卻能在替圖像產生圖說,以及回答圖像問題等兩個任務上,達到與OpenFlamingo相當的zero-shot效能等級。此外,它在回答VizWiz資料集中圖像問題的表現還勝過Flamingo。

有別於今年5月大方開源整合文字、聲音與視覺資料的多模態AI模型ImageBind,此次Meta並未公布是否或何時釋出CM3Leon。

热门文章
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
英国确认各垂直行业的赌博税税率
游戏风向
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
灰度世界杯嘉年华狂欢派对吉隆坡站即将开启,业务拓展人脉社交从马来西亚开始
灰度头条
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
首页
游戏
合作
发现
我的