蘋果展示多模態AI訓練框架4M、支援21種模態的AI模型
支付動態 · 2024-07-03

蘋果發表專門訓練多模態模型的AI框架4M,以及運用4M訓練而成的any to any視覺模型4M-21,可支援21種模態資料

蘋果

蘋果本周公開展示具備文字、聲音、圖像理解能力的多模態AI模型訓練框架4M,及支援21種模態資料的多模態模型。

4M模型框架全名為極多模態掩碼模型(Massively Multimodal Masked Modeling),為蘋果與瑞士洛桑聯邦理工學院(EPFL)合作開發。研究團隊於去年12月首先在2023年神經資訊處理系統(NeurIPS 2023)大會上發表,並向大眾開源。今年的最新成果中,研究團隊展示4M-21模型,為一any to any視覺模型,可支援21種模態任務和模態。

4M模型及相關技術上,蘋果解釋,傳統視覺機器學習模型只能用於專門化的特定模態或任務,新近的大型語言模型則具備多模態識別能力,而4M則是更進一步的多種模態模型訓練方法。它運用掩碼建模(masked modeling)方法,來訓練出單一統合式transformer encoder-decoder,輸出、輸入都可支援多模態資料,涵括文字、幾何圖、語義模態,以及現有藝術模型DINOv2和ImageBind的神經網路特徵地圖。

蘋果說,4M模型框架能以很少量的隨機詞元(token)訓練並有效擴充以訓練模型,其主要優點包括可適用多種視覺識別任務,經過微調後,也能在新任務或新模態資料上有效預測,並能訓練出現今最夯的生成式模型。

在最新的研究進展下,研究團隊將4M擴展為21種模態資料,加入了包括人類姿勢和體形、SAM(Segment Anything Model)instances、以及metadata,還提出了針對特定模型的詞元化(tokenization)方法。研究團隊也成功以4M框架擴展到30億參數的模型,還能結合視覺與語言資料來進行訓練。

研究團隊本周也釋出了二種模型,包括4M-7及4M-21的程式碼和模型。4M-21全名為An Any-to-Any Vision Model for Tens of Tasks and Modalities,研究團隊聲稱練出的模型具備未經微調(out-of-box)的極佳視覺識別效能、可執行任何條件及可操控(any-conditional & steerable)生成、跨模態擷取、支援多種感測器資料混合的能力。研究人員指出,透過4M及4M-21的研究,他們展示了可解決了多模態資料輸入任務,比現行模型多3倍,而且完全不損及效能。

VenturBeat指出,這次公布是蘋果過去極少見透明化宣傳的行為,顯示為了在AI業務上急起直追,蘋果逐漸改變行為作風。在6月的WWDC上,蘋果宣布將在iOS 18、macOS Sequoia加入和OpenAI ChatGPT的整合,也可能再引入Google Gemini或其他AI模型功能。

Popular articles
Brazil Proposes Raising Gambling Tax Rate to 24%, With Revenue Allocated to Social Security and Healthcare
Regulation
Across 6 Cities: HUIDU Invites You to 8 World Cup Parties Redefining High-Value Social Networking
HUIDU Focus
Super PAC Raises $48 Million: Sports Betting Forces Ramp Up Political Push
Regulation
SBC Summit Canada to Make Player Safety a Key Pillar of 2026 Agenda
Marketing
PropellerAds Shared a New iGaming Case Study: 97,674 Installs and 12,701 Deposits in 3 Months
Marketing
JILI Partners with Cricket Legend AB de Villiers (ABD) to Launch Exclusive Branded Game Series 100% 11
Sports Game
UK MPs reopen 2025 gambling inquiry as reform stalls
Regulation
Are you ready to maximize your earnings? Try ProPush.me Constructor!
Marketing
New Jersey July Gambling Revenue Hits $606M, Sweeps Casinos Banned
Regulation
Vietnam's tightening online gaming policy creates new market opportunities
Southeast Asia
GAT CDMX 2025 Institutional Academy: Leaders and Experts Analyze the Present and Future of the Gaming Industry in Mexico and Lat
Sports Game
Kazakhstan plans to penalise online casino promotions
Regulation
Gaming & Technology Expo Makes a Powerful Entrance in CDMX
Marketing
Online gambling, crypto pose ongoing money laundering risks in Philippines, analyst says
Southeast Asia
HUIDU Invites You to Booth T70 at iGB L!VE 2026 — Let’s Ignite London This July!
HUIDU Focus
Home
Game
Cooperation
Find
My