AI語言模型蜜月期已過!GPT系列產品品質正在走下坡嗎?
· 2023-07-21

AI語言模型蜜月期已過!GPT系列產品品質正在走下坡嗎?

GPT-4 在 6 月份所釋出的更新版本,其品質受到數千位付費用戶的批評與指責,更有研究論文指出 GPT 的發展與體驗隨時間推進,而變得更糟。但不論是對其表現行為優劣的定義、或是功能退化的證據,事實是還有更多細節需要被解讀。

內容目錄

GPT 產品越更新越糟?

近期,一篇探討有關「ChatGPT 的行為是否隨時間改變」的論文被廣泛流傳並討論,該內容就數據結果暗示,GPT-4 自推出以來就持續在退化。

論文對 GPT-3.5 及 GPT-4 進行了四項任務的測試,包括數學問題 (質數檢查) 、回應敏感問題、生成代碼及視覺推理。資料顯示,GPT-4 在數學問題及代碼生成任務的回答品質上發生改變,而數學問題更是為人津津樂道。

可以明顯看見,數學問題就回答的準確度而言,在 GPT-4 及 GPT-3.5 中產生顯著變化,前者退化而後者進步。研究指出,GPT-4 在進行所有質數判斷時,幾乎傾向猜測該數字是合數,而缺乏具邏輯性的推理結構,因此視為性能下降。

而在代碼生成的測試中,論文發現 6 月的 GPT-4 與 3 月的版本相比,在生成及修正代碼時,較未能全面評估代碼的正確性,容易使得生成的代碼無法直接執行。

部分用戶反應一致

一些用戶在推特上表示,GPT 系列產品品質在近期的更新後,單就回答問題的正確率而言,其功能的確已不再像以往這麼強大。

OpenAI 開發人員 Logan.GPT 也公開回應眾多評論,向反應有關 GPT-4 使用體驗的用戶表達感謝,並著手調查。

論文評估標準引起質疑

不過以上論點也被質疑,將語言訓練模型的功能及表現行為的好壞定義太過簡易化,其內容仍需要被討論。

一篇來自 Substack 的文章提出主張:「語言模型在特定任務上的表現行為有所變化,並不代表其能力有所下降。」

撰文者表示,在聊天機器人的情境中,能力是指模型理解及處理語言的能力,而行為是指模型如何根據不同的提示及問題來回應。

他針對數學問題說明,GPT-4 的確沒有就「關聯思考提示 (Chain of Thought, COT)」進行推理。但實際上,四個模型都同樣糟,都僅是根據他們更新後被校正的方式進行猜測。

同時他也認為,GPT-4 在數學問題上的行為變化,也可能是由於測試數據的選擇 (近 500 則問題都僅測試質數) 及評估方式的不當所導致的,而不是由於其能力的退化。

文章最後表明:

總而言之,該論文也告訴我們,將人為設計的指標或評估標準,套用於討論人工智慧語言訓練模型的性能變化是多麼困難。

熱門文章
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
英國確認各垂直行業的賭博稅稅率
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
首頁
遊戲
合作
發現
我的