AI趨勢周報第222期：一次可處理8千個Token，MosaicML開源新語言模型還可商用-HUIDU Official Website

AI趨勢周報第222期：一次可處理8千個Token，MosaicML開源新語言模型還可商用

· 2023-07-25

生成式AI新創MosaicML開源70億參數語言模型，可處理的文長達8千個Token；Meta和微軟聯手發表可免費商用的大型語言模型Llama 2；Meta發表通用生成模型，文生圖、圖生文都可以；Hugging Face推出AI WebTV平臺，幫你測試影片、音樂生成AI的表現；3秒就能合成完美人聲，Google推高效能音檔生成模型

生成式AI新創MosaicML最近開源70億參數語言模型MPT-7B-8K，可處理的文長達8k Token。

MosaicML

重點新聞(0714～0720)

MosaicLM 文長 MPT-7B-8k

一次可處理8千個Token，MosaicML開源新語言模型還可商用

生成式AI新創公司MosaicML最近開源一款70億參數的語言模型MPT-7B-8K，且一次可消化的文長達到8千個Token，擅長處理長文重點摘要和問答，還能在MosaicML平臺上根據特定任務，進一步微調。

進一步來說，該模型用1.5兆個Token（通常指單字或單位更小的詞根、詞綴）訓練而成，並以256個H100 GPU花3天完成模型訓練。這次釋出的模型有3個版本，包括MPT-7B-8k、MPT-7B-8k-Instruct和MPT-7B-8k-Chat，其中，第一個版本是以Transformer解碼器為基礎，並以FlashAttention和FasterTransformer機制來加速訓練與推論，能處理上下文長8千個Token的輸入，目前開源、允許商用。第2個版本是以第1個微調而成，可處理長篇指令，特別是摘要和問答，一樣開源且可商用。第3個版本則是Chatbot類的生成式模型，是額外用15億個聊天數據Token微調第1版模型而成，開源但不允許商用。（詳全文）

Llama 2 微軟 Meta

Meta和微軟聯手發表可免費商用的大型語言模型Llama 2

最近，Meta開源可免費商用大型語言模型Llama 2，並找來微軟當作首批發表合作夥伴。用戶現能在Azure和Windows上部署Llama 2模型，可降低企業開發AI應用的成本和障礙。

今年2月，Meta發表第一代LLaMA，僅開放AI研究社群申請使用。LLaMA以大量未標註的資料訓練而成，有70億、130億、330億及650億個參數等版本，用戶可針對各種任務進行微調。現在，Meta開源Llama 2不限研究用途，免費提供商用，但若用戶開發的應用程式月活躍使用者超過7億人，就得另外取得Meta的模型使用同意授權。Llama 2的訓練資料量比第一代多出40%，共使用2兆Token，且其文章上下文長度（即模型生成文本時參考的文章長度）是第一代的2倍，可生成更長的回覆。此外，Llama 2經調校的版本，使用了超過100萬個人類標註的資料訓練。Llama 2開源內容包括預訓練模型、經調校模型的權重和起始訓練程式碼，並有70億、130億和700億參數等版本。（詳全文）

電腦視覺 CM3Leon 生成式AI

Meta發表通用生成模型，文生圖、圖生文都可以

Meta日前發表可同時支援文字和圖像生成的通用模型CM3Leon，是一款由純文字語言模型配方所訓練的多模態模型，號稱圖像生成所使用的訓練運算資源是其它方法的1/5，就能達到進階表現，但Meta並未開源該模型。

CM3Leon是個基於Token、檢索增強和解碼器的模型，它採用因果隱蔽混合模態（CM3）架構，也就是模型可以只關注之前的元素，來生成輸出序列，確保生成內容的連貫性，還能在訓練過程中忽視或隱蔽某些元件，來產出更好的結果，還能同時處理文字和圖像的輸入。該模型只用了30億個Token文字資料訓練而成，比現有同類模型OpenFlamingo的400億個Token與Flamingo的1,000億個Token要少，還能執行更多任務。

Meta強調CM3Leon是個通用模型，單一模型就能處理多種任務，如以文字描述來生成圖像、以文字描述來編輯圖像，或是要求該模型替圖像生成圖說等，比如替《戴珍珠耳環的少女》戴上墨鏡，或輸入文字調整圖片天空的顏色。（詳全文）

Google 音訊合成 SoundStorm

3秒就能合成完美人聲，Google推高效能音檔生成模型

Google日前發表一項音檔合成模型SoundStorm，用2種方法來解決生成冗長音訊Token序列的問題，與現有主流的自回歸模型AudioLM相比，生成速度快了100倍，且只需3秒範本音檔，模型就能快速生成栩栩如生的人聲或音樂等音訊。

進一步來說，大多數音訊生成方法採用自回歸解碼器，會一一產生Token，雖然能保證音訊品質，但運算速度很慢，尤其是處理長序列。而SoundStorm採用的新方法，包含一個為SoundStream神經編碼器（用來生成音訊Token）量身打造的架構，以及根據自家圖像生成模型MaskGIT而改良的解碼方法，用來更有效率處理音訊Token。因為這些改良方法，SoundStorm可以平行生成音訊Token，也因此，SoundStorm推論長序列的速度比AudioLM快上100倍，還能產出相同品質的音檔，其語音和聲學還有更高的一致性。此外，團隊還將SoundStorm與文字轉語音模型SPEAR-TTS結合，能產出更高品質、更自然的對話。（詳全文）

／MosaicML、Meta、GitHub、微軟、Hugging Face

AI近期新聞

1. ChatGPT推出可客製化的指令，先供付費用戶試用

2. Meta AI推出ImageBind專案，可整合圖像、聲音、文字、影片、熱、深度和慣性等6種模態來訓練更智慧的AI模型

：iThome整理，2023年7月