AI趨勢周報第222期: 一次可處理8千個Token,MosaicML開源新語言模型還可商用
· 2023-07-25

生成式AI新創MosaicML開源70億參數語言模型,可處理的文長達8千個Token;Meta和微軟聯手發表可免費商用的大型語言模型Llama 2;Meta發表通用生成模型,文生圖、圖生文都可以;Hugging Face推出AI WebTV平臺,幫你測試影片、音樂生成AI的表現;3秒就能合成完美人聲,Google推高效能音檔生成模型

生成式AI新創MosaicML最近開源70億參數語言模型MPT-7B-8K,可處理的文長達8k Token。

MosaicML

重點新聞(0714~0720)

MosaicLM     文長     MPT-7B-8k  

一次可處理8千個Token,MosaicML開源新語言模型還可商用

生成式AI新創公司MosaicML最近開源一款70億參數的語言模型MPT-7B-8K,且一次可消化的文長達到8千個Token,擅長處理長文重點摘要和問答,還能在MosaicML平臺上根據特定任務,進一步微調。

進一步來說,該模型用1.5兆個Token(通常指單字或單位更小的詞根、詞綴)訓練而成,並以256個H100 GPU花3天完成模型訓練。這次釋出的模型有3個版本,包括MPT-7B-8k、MPT-7B-8k-Instruct和MPT-7B-8k-Chat,其中,第一個版本是以Transformer解碼器為基礎,並以FlashAttention和FasterTransformer機制來加速訓練與推論,能處理上下文長8千個Token的輸入,目前開源、允許商用。第2個版本是以第1個微調而成,可處理長篇指令,特別是摘要和問答,一樣開源且可商用。第3個版本則是Chatbot類的生成式模型,是額外用15億個聊天數據Token微調第1版模型而成,開源但不允許商用。(詳全文)

  Llama 2     微軟     Meta  

Meta和微軟聯手發表可免費商用的大型語言模型Llama 2

最近,Meta開源可免費商用大型語言模型Llama 2,並找來微軟當作首批發表合作夥伴。用戶現能在Azure和Windows上部署Llama 2模型,可降低企業開發AI應用的成本和障礙。

今年2月,Meta發表第一代LLaMA,僅開放AI研究社群申請使用。LLaMA以大量未標註的資料訓練而成,有70億、130億、330億及650億個參數等版本,用戶可針對各種任務進行微調。現在,Meta開源Llama 2不限研究用途,免費提供商用,但若用戶開發的應用程式月活躍使用者超過7億人,就得另外取得Meta的模型使用同意授權。Llama 2的訓練資料量比第一代多出40%,共使用2兆Token,且其文章上下文長度(即模型生成文本時參考的文章長度)是第一代的2倍,可生成更長的回覆。此外,Llama 2經調校的版本,使用了超過100萬個人類標註的資料訓練。Llama 2開源內容包括預訓練模型、經調校模型的權重和起始訓練程式碼,並有70億、130億和700億參數等版本。(詳全文)

  電腦視覺    CM3Leon     生成式AI  

Meta發表通用生成模型,文生圖、圖生文都可以

Meta日前發表可同時支援文字和圖像生成的通用模型CM3Leon,是一款由純文字語言模型配方所訓練的多模態模型,號稱圖像生成所使用的訓練運算資源是其它方法的1/5,就能達到進階表現,但Meta並未開源該模型。

CM3Leon是個基於Token、檢索增強和解碼器的模型,它採用因果隱蔽混合模態(CM3)架構,也就是模型可以只關注之前的元素,來生成輸出序列,確保生成內容的連貫性,還能在訓練過程中忽視或隱蔽某些元件,來產出更好的結果,還能同時處理文字和圖像的輸入。該模型只用了30億個Token文字資料訓練而成,比現有同類模型OpenFlamingo的400億個Token與Flamingo的1,000億個Token要少,還能執行更多任務。

Meta強調CM3Leon是個通用模型,單一模型就能處理多種任務,如以文字描述來生成圖像、以文字描述來編輯圖像,或是要求該模型替圖像生成圖說等,比如替《戴珍珠耳環的少女》戴上墨鏡,或輸入文字調整圖片天空的顏色。(詳全文)

  Google     音訊合成     SoundStorm  

3秒就能合成完美人聲,Google推高效能音檔生成模型

Google日前發表一項音檔合成模型SoundStorm,用2種方法來解決生成冗長音訊Token序列的問題,與現有主流的自回歸模型AudioLM相比,生成速度快了100倍,且只需3秒範本音檔,模型就能快速生成栩栩如生的人聲或音樂等音訊。

進一步來說,大多數音訊生成方法採用自回歸解碼器,會一一產生Token,雖然能保證音訊品質,但運算速度很慢,尤其是處理長序列。而SoundStorm採用的新方法,包含一個為SoundStream神經編碼器(用來生成音訊Token)量身打造的架構,以及根據自家圖像生成模型MaskGIT而改良的解碼方法,用來更有效率處理音訊Token。因為這些改良方法,SoundStorm可以平行生成音訊Token,也因此,SoundStorm推論長序列的速度比AudioLM快上100倍,還能產出相同品質的音檔,其語音和聲學還有更高的一致性。此外,團隊還將SoundStorm與文字轉語音模型SPEAR-TTS結合,能產出更高品質、更自然的對話。(詳全文)

/MosaicML、Meta、GitHub、微軟、Hugging Face

  AI近期新聞 

1. ChatGPT推出可客製化的指令,先供付費用戶試用

2. Meta AI推出ImageBind專案,可整合圖像、聲音、文字、影片、熱、深度和慣性等6種模態來訓練更智慧的AI模型

:iThome整理,2023年7月

Popular articles
GAT CDMX 2025 Institutional Academy: Leaders and Experts Analyze the Present and Future of the Gaming Industry in Mexico and Lat
Sports Game
Across 6 Cities: HUIDU Invites You to 8 World Cup Parties Redefining High-Value Social Networking
HUIDU Focus
Online gambling, crypto pose ongoing money laundering risks in Philippines, analyst says
Southeast Asia
Indiana online casino bill stalls in House committee
Regulation
Kazakhstan plans to penalise online casino promotions
Regulation
SBC Summit Canada to Make Player Safety a Key Pillar of 2026 Agenda
Marketing
JILI Partners with Cricket Legend AB de Villiers (ABD) to Launch Exclusive Branded Game Series 100% 11
Sports Game
GAT Expo Puerto Rico Will Pulse with the New Era of Gaming in the Caribbean
Marketing
Are you ready to maximize your earnings? Try ProPush.me Constructor!
Marketing
1spin4win releases unique slot Don Catleone Hold and Win featuring gangster cats
Online Game
Vietnam's tightening online gaming policy creates new market opportunities
Southeast Asia
Full House at GAT Expo Cartagena 2026 Academic Agenda
Online Game
1spin4win grows its Latin American presence by partnering with Fortuna Juegos
Online Game
British gambling levy rates confirmed for each vertical
Regulation
B2B Tech Infrastructure Gains Momentum in Philippine Gaming Sector
Southeast Asia
Home
Game
Cooperation
Find
My