研究人员发现,当呈现出短暂的静默时,Whisper 经常会凭空编造出整段文字。
ABC News引用的研究人员发现,OpenAI 的 Whisper 并不总是这么可靠,这个工具被许多医院使用——有时候它会完全胡编乱造。
根据ABC News的报道,一家名为 Nabla 的公司使用 Whisper 作为一个医疗转录工具,据估计它已转录了 700 万次医疗对话。该报道写道,超过 3 万名临床医生和 40 个健康系统在使用它。据称,Nabla 意识到 Whisper 会出现幻觉,并正在“解决这个问题”
来自康奈尔大学、华盛顿大学等机构的一组研究人员在一项研究中发现,Whisper 在大约 1%的转录中产生了幻觉,在录音的静音部分编造完整的句子,有时还带有暴力情绪或无意义的短语。研究人员从 TalkBank 的 AphasiaBank 中收集了音频样本作为研究的一部分,他们指出,当一个患有失语症(一种语言障碍)的人说话时,静音是特别常见的。
其中一位研究人员,康奈尔大学的艾莉森·科恩克(Allison Koenecke),在关于该研究的帖子中发布了如封面图的例子。
研究人员发现,幻觉还包括一些虚构的医疗状况或短语,比如:你可能在 YouTube 视频中听到的“谢谢收看!”(据报道,OpenAI 曾转录超过一百万小时的 YouTube视频来训练 GPT-4。)
这项研究是在巴西召开的计算机协会 FAccT 会议上于六月发布的。目前还不清楚是否经过同行评审。
OpenAI 发言人塔亚·克里斯蒂安森给The Verge:发送了一份声明:
我们非常重视这个问题,并持续努力改进,包括减少幻觉。
在我们的 API 平台上使用 Whisper 时,我们的使用政策禁止在某些高风险决策场景中使用,针对开源使用的模型卡中也包括建议,不要在高风险领域使用。我们感谢研究人员分享他们的研究成果。