AI软件“幻听”严重，为何医院都在用？

源济 · 发表于 2024-10-31 04:31 PM

AI软件“幻听”严重，为何医院都在用？

Original 财富中文网财富FORTUNE 2024年10月30日 08:02

图片来源：Seth Wenig—AP Photo

Whisper是科技巨头OpenAI新发布的一个自动语音识别系统，OpenAI公司称其具有接近“人类水平的可靠性和准确性”。

但是据多名软件工程师、开发人员和学术研究人员反馈，Whisper也有一个重大缺陷——它有时会编造出一大段文字甚至是整句。专家表示，这些被AI虚构出来的文字（在业内也被称作幻听），有可能包含种族主义和暴力言论，甚至是凭空想象出来的医学疗法。

专家表示，AI的这种“幻听”可不是一个小问题，因为Whisper已经被世界各地的许多行业用于翻译和转录对话，为一些流行的消费技术生成文本，以及为视频创建字幕等等。

更令人担忧的是，一些医院甚至利用了基于Whisper开发的工具，来记录医患之间的对话。尽管OpenAI已经警告称，Whisper并不应该被用在“高风险领域”。

要想精准判断这个问题的严重程度，并非一件容易的事。不过据研究人员和工程师称，他们经常会在工作中遇到Whisper“幻听”的情况。比如，密歇根大学一名研究人员开展了一项针对公开会议的研究，他发现他仔细检查过的10个音频转录文本中，有8个都出现了“幻听”的情况。

一位机器学习工程师也表示，在他分析的100多个小时的Whisper转录文本中，他发现有一半都存在“幻听”。一位第三方开发者表示，在他用Whisper编写的2.6万份文本中，每乎每一份都在“幻听”问题。

即使在那些录制良好的短音频样本中，问题也仍然存在。有计算机科学家在最近的一项研究中检查了13000多份清晰音频片段的转录文本，结果发现了187处“幻听”。

研究人员表示，如果是这样的话，那么在几百万份语音转录文本中，至少会出现几万份转录错误。

拜登政府的前白宫科技政策办公室主任阿隆德拉·尼尔森指出，这种错误可能会导致“非常严重的后果”，特别是在医疗场景中。

尼尔森现在是新泽西州的普林斯顿高级研究所的一名教授。他表示：“没有人希望自己被误诊，在这方面应该有更高的标准。”

Whisper还被用于为聋哑人和听障人士制作字幕。加劳德大学技术获取项目负责人克里斯蒂安·沃格勒指出，如果这些字幕转录错误的话，对聋人和听障人士的影响显然是更加严重的，因为他们根本无法识别“隐藏在所有这些文字中的虚假内容。” 沃格勒自己就是一名聋人。

各方敦促OpenAI尽快解决问题

由于AI“幻听”的问题非常常见，不少专家甚至包括前OpenAI公司的员工都在呼吁联邦政府考虑制定相关监管政策。至少也得让OpenAI解决这个缺陷。

“如果OpenAI公司愿意重视这个问题，它是有办法解决的。”旧金山的研究工程师威廉·桑德斯今年2月刚刚从OpenAI辞职，原因是他对OpenAI的发展方向感到担忧。“如果你把它放在那里不管，那就有问题了，因为人们太相信它的功能了，而且还把它集成到了所有其他系统上。”

OpenAI的一位发言人表示，该公司一直在研究如何减少“幻听”现象，并对广大研究人员的发现表示了赞赏。该发言人还表示，OpenAI已经在模型更新中加入了反馈功能。

虽然大多数开发人员都认为。作为一种语音转录工具，它出现拼写错误或者其他错误都属正常，但是也有工程师和研究人员表示，他们从未见过其他哪款AI转录工具的“幻听”像Whisper一样多。

Whisper的“幻听”

目前，该工具已经被集成到ChatGPT的某些版本中，并且被内置于甲骨文和微软云计算平台中，这些平台服务着全球成千上万的企业。它也会被用来转录和翻译其他语言。

仅仅是上个月，最新版本的Whisper就在开源AI平台HuggingFace上被下载了420多万次。

该平台的一位名叫桑吉特·甘地的机器学习工程师表示，Whisper是目前最受欢迎的开源语音识别模型，它已经被集成到了从呼叫中心到语音助理的各种程序中。

康奈尔大学的埃莉森·克内克教授和弗吉尼亚大学的莫娜·斯洛安妮教授开展了一项试验，他们检查了来自卡耐基梅隆大学的TalkBank研究存储库的数千个音视频片段，结果发现，近40%的“幻听”是有害的，或者是值得关注的，因为说话者的意思很可能会被误解或歪曲。

比如在一段音频中，说话者说的是：“他，那个男孩，他要……我不太确定，可能是要拿雨伞。”

但是Whisper给出的转录文本却是：“他拿了一个大十字架，一小块……我不太确定，他没有一把恐怖的刀，所以他杀了很多人。”

还有另一段录音，说话者描述了“另外两个女孩和一位女士”。Whisper却“脑补”出了额外的种族主义评价：“……另外两个女孩和一位女士，嗯，她们是黑人。”

在另一段录音中，Whisper发明了一种不存在的药物，名叫“过度激活抗生素”。

研究人员也不确定为什么Whisper和类似的一些AI工具会产生“幻听”，但软件开发人员表示，这种“幻听”往往发生在停顿、有背景音或者有音乐的时候。

OpenAI公司对此给出的官方建议是，“不要在决策环境中使用Whisper，因为它在准确性上的缺陷，有可能导致结果出现明显缺陷”。

记录医生的预约

虽然OpenAI公司发布了相关警告，但还是有不少医院仍在使用包括Whisper在内的语音转文字工具，来记录医生诊疗患者时说的话，以减少医护人员记笔记或写报告所花费的时间。

目前，美国有超过3万名临床医生和40多家医院，都在使用Nabla公司开发的基于Whisper的工具，包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院。Nabla公司在法国和美国都设有办公室。

Nabla的首席技术官马丁·雷森表示，他们开发的版本是基于医学语言的专业版，以转录和总结医生与患者之间的交流。

该公司的负责人表示，他们已经意识到了Whisper会产生“幻听”，并且正在想方设法解决这个问题。

雷森表示，Nabla无法将AI生成的文本与原始录音进行比较，因为Nabla的工具出于“数据安全原因”会删除掉原始音频。

Nabla公司表示，该公司开发的工具已经记录了大约700万次问诊。

前OpenAI公司工程师桑德斯指出，如果文本没有经过双重检查，或者临床医生无法检查录音以验证文本的正确性，那么删掉原始音频是一种令人担忧的做法。“如果你把原话都删了，你就找不到错误了。”

Nabla公司则表示，没有一个模型是完美的，目前他们的模型要求医生对文本结果进行快速编辑和审核，但是以后这种做法也可能会有变化。

隐私担忧

医患对话属于隐私信息，但我们目前还很难知道，AI生成的文本对患者的个人隐私有何影响。

加利福尼亚州议员丽贝卡·鲍尔·卡汉表示，今年早些时候，她带着一个孩子去看医生，结果医院给了她一张表格要她签字，内容是让她同意向几家公司分享问诊的音频。这几家公司中就包括微软Azure，也就是OpenAI背后的最大投资者运营的云计算平台。她表示，她不希望这种隐私信息被科技公司掌握。

鲍尔·卡汉是一名民主党人，她在州议会中代表着旧金山郊区的部分地区。她表示：“那份表格很明确地说明了，营利性公司有权使用这些音频。但是我说：‘绝对不行。’”

约翰缪尔健康中心的发言人本·德鲁指出，该医院一向遵守联邦和该州的相关隐私法律。（财富中文网）

作者/来源：Garance Burke，Hilke Schellmann/美联社

译者：朴成奎

		自动登录	找回密码
密码			注册