Meta發表也能產生圖說的圖像生成模型CM3Leon
· 2023-07-18

Meta強調只用30億Token文字資料訓練的CM3Leon,在生成圖像說明、回答圖像問題任務表現上,與具備400億Token的OpenFlamingo相當

Meta

Meta上周發表了可同時支援文字與圖像生成的CM3Leon模型,這是史上第一個由純文字語言模型配方所訓練的多模態模型,並宣稱其圖像生成所使用的訓練運算資源只要其它方法的1/5,即可達到先進效能。

CM3Leon是個基於Token、檢索增強與decoder-only的模型,它採用因果隱蔽混合模態(Causal Masked Mixed-Modal,CM3)架構,代表該模型得以僅關注之前的元素來生成輸出序列,確保生成內容的連貫性,且於訓練過程中能夠忽視或隱蔽某些元件,以生成更好的結果,還可同時處理文字及圖像的輸入。

Meta強調CM3Leon是個通用模型,透過單一模型即可處理許多不同的任務,像是以文字描述來生成圖像,也能以文字描述來編輯圖像,或者是要求該模型替圖像生成圖說等。

例如以文字要求它生成「在撒哈拉沙漠的一株小仙人掌戴上了一頂鑲有霓虹太陽眼鏡的草帽」的圖像;也能利用文字幫《戴珍珠耳環的少女》戴上墨鏡,或是以文字調整天空的顏色;使用者還可要求CM3Leon替圖像生成圖說,以文字描繪圖像中的元素。

_Meta

研究人員表示,CM3Leon僅使用30億個Token的文字資料進行訓練,大幅低於OpenFlamingo的400億個Token與Flamingo的1,000億個Token,但它卻能在替圖像產生圖說,以及回答圖像問題等兩個任務上,達到與OpenFlamingo相當的zero-shot效能等級。此外,它在回答VizWiz資料集中圖像問題的表現還勝過Flamingo。

有別於今年5月大方開源整合文字、聲音與視覺資料的多模態AI模型ImageBind,此次Meta並未公布是否或何時釋出CM3Leon。

熱門文章
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
首頁
遊戲
合作
發現
我的