微軟公布具視覺能力的Phi-3-vision多模態模型，可跑在行動裝置上-灰度官网

微軟公布具視覺能力的Phi-3-vision多模態模型，可跑在行動裝置上

· 2024-05-22

微軟釋出小語言模型Phi-3家族第一個多模態模型Phi-3-vision，同時具備文字以及圖片識別能力，能根據用戶要求產出洞見與回答問題

／微軟

Phi-3-vision現在已以預覽版公開於Hugging Face平臺上。

最新公布的Phi-3-vision為指令調校過的Phi-3-128K-Instruct模型，包括Phi-3-mini語言模型、圖片編碼器、連接器（connector）與投影器（projector）。其脈絡長度為128k token，訓練期間為2024年2月到4月。

資料集方面，Phi-3-vision是以500B token的多種類型圖片及文字資料來訓練，包括嚴選公開內容、高品質教育資料與程式碼、高品質的圖文整合資料、新的「教科書等級」合成資料（主要是數學、程式、常識理解、真實世界知識如科學、日常活動、心靈理論）與圖表圖片，以及高品質的監督式聊天格式資料，後者涵括多種人類偏好如遵從指令、真實、誠實、助益等主題。為了確保隱私，資料蒐集過程中已篩選掉包含個資的資料。

微軟也提供了Phi-3-vision相較於字節跳動Llama3-Llava-Next（8B）及（微軟研究院和威斯康辛大學、哥倫比亞大學合作的）LlaVA-1.6（7B）、阿里巴巴通義千問QWEN-VL-Chat模型在效能比較，顯示最新模型在多個項目上表現優異。

／微軟

熱門文章

印第安納州在線賭場法案在眾議院委員會停滯不前

合規與政策