醫院轉錄語音的OpenAI模型有逾1%出現AI幻覺
支付動態 · 2024-10-30

由紐約大學、康乃爾大學及華盛頓大學學者組成的研究團隊實驗發現,由OpenAI的Whisper模型所轉錄的醫療訪談文字紀錄,有1.4%機率會生成AI幻覺內容,可能對診斷或治療造成影響

背景圖片取自CSTRSK (pixabay.com)

愈來愈多醫院使用AI來轉錄(transcribe)門診紀錄,但一項研究發現,有超過1%經過OpenAI的Whisper模型錄寫的文字,包含AI幻覺(hallucination),可能對診斷或治療造成影響。

由紐約大學、康乃爾大學及華盛頓大學學者組成的研究團隊為瞭解廣受醫院採用的OpenAI語音轉錄模型Whisper是否存在常被討論的AI幻覺,他們以TalkBank語言障礙(特別是失語症)的錄音資料集作為分析對象。這些資料來自美國不同大學醫院,涵括英文、中文、西語、希臘文等12種語言。

研究人員比較Whisper轉錄的語音檔文字紀錄,和人類錄寫的訪談紀錄,以瞭解轉錄的正確性。研究團隊分別在2023年4、5月,以及同年11月各做一次研究。

研究團隊發現,在2023年春天,他們187段錄音中有312則錄寫紀錄發生幻覺,佔了總體資料集的1.4%。幻覺類型包括加入暴力、死亡、性別或年齡刻板印象等情節(19%)、13%包括不正確的人事物關聯(捏造的地點、人名、關係、或健康狀態),8%是引述錯誤來源(引述主播、YouTuber或網站連結等)。例如一名受訪者只說男孩可能拿著雨傘,但Whisper轉錄時加入了他可能拿了一把刀,或是憑空加入某人「十分野蠻」、自行加入某人「有殘障」的描述、或是捏造名字、自己附加網址等等。研究人員指出,近40%的幻覺內容是有害或值得擔憂的,像是強化歧視,或是暴力內容可能刺激受虐被害者。

研究人員發現,若說話者有較長時間的非語言停頓,像是失語症患者或是非裔美國人,Whisper轉錄出現幻覺的機會將提高。他們認為,這是發展轉錄語言模型的業者研發時需留意的偏差問題。

研究團隊在同年12月又讓Whisper對同樣的語音資料集做了轉錄,錯誤減少到12則。此外,他們又在11月做了另一次研究,隨機抽取250段錄音檔讓Whisper錄寫,這次只有1則有幻覺,Whisper虛構了名字。研究團隊認為,研究結果進步可能是因為OpenAI方面提供了升級,但是他們認為這還是有改善空間,因為牽涉醫療,再小的失誤都可能對診斷造成不良影響。

OpenAI方面回應,將持續改善模型幻覺問題。但該公司也強調政策禁止在某些重大決策情境下使用Whisper,其開源使用模型規畫也包含不建議用於高風險領域。

熱門文章
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
首頁
遊戲
合作
發現
我的