Hugging Face公佈可在裝置上執行的小型多模態模型SmolVLM
支付動態 · 2024-11-28

SmolVLM為參數量20億的小型多模態模型,可接受以任意圖片和文字的組合作為輸入,並生成文字輸出

Hugging Face

在7月公佈SmolLM輕量語言模型後,AI應用開發平臺Hugging Face本週公佈輕量多模態模型SmolVLM,主打輕量、高效能,為其小型語言模型再添成員。

SmolVLM為參數量20億的小型多模態模型,號稱是同規模模型的State-of-the-Art(SOTA)。SmolVLM可接受以任意圖片和文字的組合作為輸入,但作為輕量模型,它只會生成文字輸出。SmolVLM能回答關於圖片的問題、描述圖片內容,根據多張圖片來說故事,也可以當成純語言模型使用。開發團隊表示,SmolVLM基於輕量架構,很適合在裝置上執行,且維持多模態任務的高效能。

SmolVLM的架構是以Hugging Face之前推出的視覺模型IDEFICS 3為基礎,連Transformer實作也相同。但是Hugging Face較IDEFICS有幾點不同。第一是將語言骨幹由Llama 3.1 8B換成了SmolLM2 1.7B。其次,SmolVLM採用更強大的圖片壓縮技術,使用了畫素混合(pixel shuffle)策略,以及更大的patch來為視覺字詞編碼,這能提升它編碼效率、推論速度更快,但使用的記憶體更少。

Hugging Face強調SmolVLM的高效及記憶體效率,並公佈和市面參數量相當的模型的測試數據。在多模態理解、推理、數學以及文字理解能力方面,SmolVLM超越InternVL2、PaliGemma、MM1.5、moondream、MiniCPM-V-2等模型,而以GPU RAM使用效率而言,也超越大多數模型。其中和阿里巴巴的Qwen2-V2相較,SmolVLM的預填充吞吐量快3.3到4.5倍,而生成吞吐量則是7.5到16倍大。

Hugging Face公佈了SmolVLM家族三個模型,包括可供微調基礎模型SmolVLM-Base、以合成資料集微調成的SmolVLM-Synthetic、以及以指令微調的版本SmolVLM Instruct,後者能立即提供終端用戶互動使用。SmolVLM的所有模型檢查點、訓練資料集、訓練方法及工具,都以Apache 2.0授權開源。

熱門文章
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
英國確認各垂直行業的賭博稅稅率
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
首頁
遊戲
合作
發現
我的