AI語言模型蜜月期已過！GPT系列產品品質正在走下坡嗎？-灰度官网

AI語言模型蜜月期已過！GPT系列產品品質正在走下坡嗎？

· 2023-07-21

AI語言模型蜜月期已過！GPT系列產品品質正在走下坡嗎？

GPT-4 在 6 月份所釋出的更新版本，其品質受到數千位付費用戶的批評與指責，更有研究論文指出 GPT 的發展與體驗隨時間推進，而變得更糟。但不論是對其表現行為優劣的定義、或是功能退化的證據，事實是還有更多細節需要被解讀。

內容目錄

GPT 產品越更新越糟？

近期，一篇探討有關「ChatGPT 的行為是否隨時間改變」的論文被廣泛流傳並討論，該內容就數據結果暗示，GPT-4 自推出以來就持續在退化。

論文對 GPT-3.5 及 GPT-4 進行了四項任務的測試，包括數學問題 (質數檢查) 、回應敏感問題、生成代碼及視覺推理。資料顯示，GPT-4 在數學問題及代碼生成任務的回答品質上發生改變，而數學問題更是為人津津樂道。

可以明顯看見，數學問題就回答的準確度而言，在 GPT-4 及 GPT-3.5 中產生顯著變化，前者退化而後者進步。研究指出，GPT-4 在進行所有質數判斷時，幾乎傾向猜測該數字是合數，而缺乏具邏輯性的推理結構，因此視為性能下降。

而在代碼生成的測試中，論文發現 6 月的 GPT-4 與 3 月的版本相比，在生成及修正代碼時，較未能全面評估代碼的正確性，容易使得生成的代碼無法直接執行。

部分用戶反應一致

一些用戶在推特上表示，GPT 系列產品品質在近期的更新後，單就回答問題的正確率而言，其功能的確已不再像以往這麼強大。

OpenAI 開發人員 Logan.GPT 也公開回應眾多評論，向反應有關 GPT-4 使用體驗的用戶表達感謝，並著手調查。

論文評估標準引起質疑

不過以上論點也被質疑，將語言訓練模型的功能及表現行為的好壞定義太過簡易化，其內容仍需要被討論。

一篇來自 Substack 的文章提出主張：「語言模型在特定任務上的表現行為有所變化，並不代表其能力有所下降。」

撰文者表示，在聊天機器人的情境中，能力是指模型理解及處理語言的能力，而行為是指模型如何根據不同的提示及問題來回應。

他針對數學問題說明，GPT-4 的確沒有就「關聯思考提示 (Chain of Thought, COT)」進行推理。但實際上，四個模型都同樣糟，都僅是根據他們更新後被校正的方式進行猜測。

同時他也認為，GPT-4 在數學問題上的行為變化，也可能是由於測試數據的選擇 (近 500 則問題都僅測試質數) 及評估方式的不當所導致的，而不是由於其能力的退化。

文章最後表明：

總而言之，該論文也告訴我們，將人為設計的指標或評估標準，套用於討論人工智慧語言訓練模型的性能變化是多麼困難。

熱門文章

JILI 宣佈與全球板球傳奇 AB de Villiers（ABD）達成重磅戰略合作

體育遊戲

菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險

東南亞資訊

英國確認各垂直行業的賭博稅稅率

合規與政策

橫跨全球6個城市，灰度8場派對邀你共看世界盃，重塑高質量社交新場景

灰度頭條

斯里蘭卡博弈產業大轉型，官方：劍指南亞拉斯維加斯

合規與政策

印度最高法院受理公益訴訟，要求全國禁封「偽裝」成社交遊戲的賭博平台

合規與政策

亞洲遊戲市場觀察：15大市場熱門遊戲與用戶趨勢

網路遊戲

2027 Global Game Connect（GGC）斯里蘭卡招商全面啟動！業務人脈盡在掌握！

灰度頭條

哈薩克計劃對線上賭場促銷活動進行處罰

合規與政策

越南博彩管控逐步放寬，惟本土需求仍顯乏力

東南亞資訊

新澤西州7月博彩收入創6.06億美元新高，頒布禁令

合規與政策

超級PAC籌資4800萬美元：體育博彩勢力加碼

合規與政策

越南在線博彩業政策收緊催生市場新機遇

東南亞資訊

巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域

合規與政策

西班牙監管機構警告在線賭博平臺存在身份盜竊行為

合規與政策

首頁

遊戲

合作

發現

我的