Google 再展黑科技？新研究突破 Transformer 限制稱讓 LLM 處理無限文字-灰度官网

Google 再展黑科技？新研究突破 Transformer 限制稱讓 LLM 處理無限文字

· 2024-04-13

Google 稱使用 Infini-attention 的模型可以在超過一百萬個 token 的情況下還能保持輸出品質，還無需額外的記憶體。

Google 最近再度發表新的 AI 論文，號稱可以賦予大型語言模型（LLM）處理無限長度文本的能力！

這個技術叫 Infini-attention，直譯就是「無限注意力」，最白話來說是修改了 Transformer 的注意力層，讓 LLM 可以在保持記憶體和計算需求不變的情況下擴展模型的「Context Window」。

Context Window 是指模型可以處理的上下文 token 數量。例如你與 ChatGPT 的對話超出了 Context Window 最大量話，它的性能將會急劇下降，而且會忘記、捨棄、忽視對話一開始所輸入的資訊，所以 Context Window 最大量往往也是評斷一組 LLM 最重要的指標之一。

Google 研究團隊稱，使用 Infini-attention 的模型可以在超過一百萬個 token 的情況下還能保持輸出的品質，而且還無需額外的記憶體。理論上還可以處理更多 token。

技術上 Transformer 處理數據所需的記憶體量、時間會以指數方式增加。理論上沒有修改過的同一組模型如果要把輸入量從 1,000 個 token 擴展到 2,000 個 token 的話，處理輸入所需的記憶體和計算時間不僅僅會增加一倍，而是會增加四倍，這是因為 Transformer 的注意力機制會把每個 token 與其他所有 token 都進行比較運算。在過去幾年中，研究人員開發了不同的技術來降低擴展 LLM 上下文長度的成本。

Infini-attention 的原理是保留了 transformer 的注意力機制，但添加了「壓縮記憶體」模組來處理輸入資訊。一旦輸入超出 Context Window 上線，Infini-attention 就會將舊的注意力狀態儲存在壓縮記憶體模組中，該模組也會保持恆定數量的記憶體參數以提高計算效率。

該論文說明是在 10 億和 80 億個參數的 LLM 進行實驗，但 Google 沒有發布詳細用了哪個模型，或任何相對應的程式碼，因此其他研究人員目前還無法驗證結果（合理推測 Google 可能是用自家的 Gemini 測試的）。

快加入 INSIDE Google News 按下追蹤，給你最新、最 IN 的科技新聞！

熱門文章

賀錦麗首提及數位資產，Coinbase：拜登與沃倫的時代結束了

支付動態