

微軟釋出小語言模型Phi-3家族第一個多模態模型Phi-3-vision,同時具備文字以及圖片識別能力,能根據用戶要求產出洞見與回答問題
/微軟
Phi-3-vision現在已以預覽版公開於Hugging Face平臺上。
最新公布的Phi-3-vision為指令調校過的Phi-3-128K-Instruct模型,包括Phi-3-mini語言模型、圖片編碼器、連接器(connector)與投影器(projector)。其脈絡長度為128k token,訓練期間為2024年2月到4月。
資料集方面,Phi-3-vision是以500B token的多種類型圖片及文字資料來訓練,包括嚴選公開內容、高品質教育資料與程式碼、高品質的圖文整合資料、新的「教科書等級」合成資料(主要是數學、程式、常識理解、真實世界知識如科學、日常活動、心靈理論)與圖表圖片,以及高品質的監督式聊天格式資料,後者涵括多種人類偏好如遵從指令、真實、誠實、助益等主題。為了確保隱私,資料蒐集過程中已篩選掉包含個資的資料。
微軟也提供了Phi-3-vision相較於字節跳動Llama3-Llava-Next(8B)及(微軟研究院和威斯康辛大學、哥倫比亞大學合作的)LlaVA-1.6(7B)、阿里巴巴通義千問QWEN-VL-Chat模型在效能比較,顯示最新模型在多個項目上表現優異。

/微軟