医院转录语音的OpenAI模型有逾1%出现AI幻觉
支付動態 · 2024-10-30

由纽约大学、康乃尔大学及华盛顿大学学者组成的研究团队实验发现,由OpenAI的Whisper模型所转录的医疗访谈文本纪录,有1.4%概率会生成AI幻觉内容,可能对诊断或治疗造成影响

背景图片取自CSTRSK (pixabay.com)

愈来愈多医院使用AI来转录(transcribe)门诊纪录,但一项研究发现,有超过1%经过OpenAI的Whisper模型录写的文本,包含AI幻觉(hallucination),可能对诊断或治疗造成影响。

由纽约大学、康乃尔大学及华盛顿大学学者组成的研究团队为了解广受医院采用的OpenAI语音转录模型Whisper是否存在常被讨论的AI幻觉,他们以TalkBank语言障碍(特别是失语症)的录音数据集作为分析对象。这些数据来自美国不同大学医院,涵括英文、中文、西语、希腊文等12种语言。

研究人员比较Whisper转录的语音档文本纪录,和人类录写的访谈纪录,以了解转录的正确性。研究团队分别在2023年4、5月,以及同年11月各做一次研究。

研究团队发现,在2023年春天,他们187段录音中有312则录写纪录发生幻觉,占了总体数据集的1.4%。幻觉类型包括加入暴力、死亡、性别或年龄刻板印象等情节(19%)、13%包括不正确的人事物关联(捏造的地点、人名、关系、或健康状态),8%是引述错误来源(引述主播、YouTuber或网站链接等)。例如一名受访者只说男孩可能拿着雨伞,但Whisper转录时加入了他可能拿了一把刀,或是凭空加入某人「十分野蛮」、自行加入某人「有残障」的描述、或是捏造名字、自己附加网址等等。研究人员指出,近40%的幻觉内容是有害或值得担忧的,像是强化歧视,或是暴力内容可能刺激受虐被害者。

研究人员发现,若说话者有较长时间的非语言停顿,像是失语症患者或是非裔美国人,Whisper转录出现幻觉的机会将提高。他们认为,这是发展转录语言模型的业者研发时需留意的偏差问题。

研究团队在同年12月又让Whisper对同样的语音数据集做了转录,错误减少到12则。此外,他们又在11月做了另一次研究,随机抽取250段录音档让Whisper录写,这次只有1则有幻觉,Whisper虚构了名字。研究团队认为,研究结果进步可能是因为OpenAI方面提供了升级,但是他们认为这还是有改善空间,因为牵涉医疗,再小的失误都可能对诊断造成不良影响。

OpenAI方面回应,将持续改善模型幻觉问题。但该公司也强调政策禁止在某些重大决策情境下使用Whisper,其开源使用模型规画也包含不建议用于高风险领域。

热门文章
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
亚洲游戏市场观察:15大市场热门游戏与用户趋势
线上游戏
2027 Global Game Connect(GGC)斯里兰卡招商全面开启!业务人脉尽在掌握!
灰度头条
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
英国确认各垂直行业的赌博税税率
游戏风向
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
首页
游戏
合作
发现
我的