蘋果展示多模態AI訓練框架4M、支援21種模態的AI模型
支付動態 · 2024-07-03

蘋果發表專門訓練多模態模型的AI框架4M,以及運用4M訓練而成的any to any視覺模型4M-21,可支援21種模態資料

蘋果

蘋果本週公開展示具備文字、聲音、圖像理解能力的多模態AI模型訓練框架4M,及支援21種模態資料的多模態模型。

4M模型框架全名為極多模態掩碼模型(Massively Multimodal Masked Modeling),為蘋果與瑞士洛桑聯邦理工學院(EPFL)合作開發。研究團隊於去年12月首先在2023年神經資訊處理系統(NeurIPS 2023)大會上發表,並向大眾開源。今年的最新成果中,研究團隊展示4M-21模型,為一any to any視覺模型,可支援21種模態任務和模態。

4M模型及相關技術上,蘋果解釋,傳統視覺機器學習模型只能用於專門化的特定模態或任務,新近的大型語言模型則具備多模態識別能力,而4M則是更進一步的多種模態模型訓練方法。它運用掩碼建模(masked modeling)方法,來訓練出單一統合式transformer encoder-decoder,輸出、輸入都可支援多模態資料,涵括文字、幾何圖、語義模態,以及現有藝術模型DINOv2和ImageBind的神經網路特徵地圖。

蘋果說,4M模型框架能以很少量的隨機詞元(token)訓練並有效擴充以訓練模型,其主要優點包括可適用多種視覺識別任務,經過微調後,也能在新任務或新模態資料上有效預測,並能訓練出現今最夯的生成式模型。

在最新的研究進展下,研究團隊將4M擴展為21種模態資料,加入了包括人類姿勢和體形、SAM(Segment Anything Model)instances、以及metadata,還提出了針對特定模型的詞元化(tokenization)方法。研究團隊也成功以4M框架擴展到30億參數的模型,還能結合視覺與語言資料來進行訓練。

研究團隊本週也釋出了二種模型,包括4M-7及4M-21的程式碼和模型。4M-21全名為An Any-to-Any Vision Model for Tens of Tasks and Modalities,研究團隊聲稱練出的模型具備未經微調(out-of-box)的極佳視覺識別效能、可執行任何條件及可操控(any-conditional & steerable)生成、跨模態擷取、支援多種感測器資料混合的能力。研究人員指出,透過4M及4M-21的研究,他們展示了可解決了多模態資料輸入任務,比現行模型多3倍,而且完全不損及效能。

VenturBeat指出,這次公佈是蘋果過去極少見透明化宣傳的行為,顯示為了在AI業務上急起直追,蘋果逐漸改變行為作風。在6月的WWDC上,蘋果宣佈將在iOS 18、macOS Sequoia加入和OpenAI ChatGPT的整合,也可能再引入Google Gemini或其他AI模型功能。

熱門文章
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
首頁
遊戲
合作
發現
我的