Google運用小型評分器Cappy來提升大型語言模型的效能
· 2024-03-18

Google基於RoBERTa模型開發了Cappy評分器,能夠評估大型語言模型處理指令與輸出回應的正確性,藉此提升下游任務的效能

Google開發一個稱為Cappy的評分器,Cappy以RoBERTa語言模型為基礎,使用指令和候選回應作為輸入,並輸出0到1之間的分數,這個分數代表著回應相對於指令的估計正確性。Cappy可獨立執行分類任務,或是作為大型語言模型的輔助元件,有助於提升大型語言模型下游應用的效能。

研究人員指出,大型語言模型的發展出現一種新範式,該範式將各種自然語言任務整合在一個指令遵循框架中。這種方法將不同任務標準化為指令與回應的形式,使得模型能夠理解和執行廣泛的語言任務,進而提高泛化能力,大型語言模型可透過理解和解決全新指令,來處理未見過的任務,這代表一種從特定任務學習,移向多任務和指令驅動學習的轉變。

但是要只用指令來理解和解決各種任務,多任務大型語言模型的參數可能高達千億,要操作這麼龐大的模型,需要大量的運算能力,以及大量的GPU和TPU等加速器的記憶體,這些要求導致大型語言訓練和推理成本高昂效率不彰。而且強大的多任務大型語言模型通常是閉源的,因此也難以被調整並應用於新的任務中。

而事實上,要使用單一多任務大型語言模型管理所有任務仍然非常困難,特別是在處理複雜、個人化,且難以簡潔地用指令定義的任務。研究人員也指出,下游訓練資料的大小,通常不足以良好地訓練模型,也就是説,要讓大型語言模型可以良好地適應特定任務,需要經過足夠的資料訓練,但在下游訓練資料有限的情況下,模型可能無法很好地執行任務。

因此在大型語言的應用上出現一種需求,希望可以不需要大量儲存和記憶體資源,也不需要完全存取模型內部結構,就能夠對大型語言模型進行有效的下游任務訓練或是適應的需求。Cappy便是在這種需求下發展的研究成果,運用輕量級的預訓練評分器來輔助大型語言模型,以達到更好的效能和效率。

研究人員從問答、情感分析和摘要等任務收集一系列資料集,針對個別任務,研究人員將資料集中的每個例子轉換成為指令與回應的資料對,並且對每個指令與回應資料對給予正確性分數,Cappy透過學習這些資料,使其能夠評估指令與回應的適合程度。

Cappy可應用於大型語言模型輸出的候選機制,當有下游任務訓練資料可用於微調Cappy,便具備了適應下游任務的能力。將指令以及一組大型語言模型的候選回應作為輸入,Cappy會對候選回應生成分數,選擇分數最高的回應作為最終輸出,以提高大型語言模型的預測效能。如此經微調的Cappy便能與大型語言模型協調運作,提升大型語言在下游任務上的效能。

與其他大型語言模型調整策略相比,用Cappy適應大型語言模型可減少對裝置記憶體的需求,因為能夠避免對下游任務大型語言模型參數進行反向傳播(Back-Propagation)的需要,而且Cappy也不需要存取語言模型參數,因此能夠與閉源多任務大型語言模型相容,像是僅透過Web API存取的模型。

Google研究人員評估了Cappy,在自然語言提示工具包PromptSource的11項語言理解分類任務中的表現,Cappy雖然僅擁有3.6億參數,效能卻優於規模更大的OPT-175B和OPT-IML-30B模型,且與當前先進的多任務大型語言模型T0-11B和OPT-IML-175B準確度相當。研究人員解釋,評分預訓練策略,使得Cappy的效能與參數效率突出。

熱門文章
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
英國確認各垂直行業的賭博稅稅率
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
首頁
遊戲
合作
發現
我的