国内健康环球医讯家医百科药品库医药资讯

医学领域中的聊天机器人:输入错误后更多不正确建议

Chatbots in medicine: More incorrect advice after typos during input

德国德语科技与健康
新闻源:heise online
2025-06-25 17:00:00阅读时长2分钟703字
医学领域聊天机器人人工智能技术拼写错误错误建议医疗用途患者评估性别差异严格测试健康风险

内容摘要

麻省理工学院研究团队发现,当AI聊天机器人用于提供简单医疗建议时,输入拼写错误、多余空格或“不安全、戏剧性或非正式”表达会显著影响其输出结果,导致更多错误建议,特别是对女性患者存在更大偏差。

当使用人工智能技术评估症状描述时,若出现拼写错误等情况,往往会生成不正确的建议。

由美国麻省理工学院(MIT)的一个研究团队进行的调查显示,聊天机器人在处理带有拼写错误、多余空格或“不安全、戏剧性或非正式”表达的信息时,容易受到显著影响。研究人员认为,这一现象表明,在这些系统被用于医疗用途之前,需要对其进行更为严格的测试——但实际上这种应用已经在发生。研究表明,人工智能技术以一种此前未知的方式处理了非医学信息,并将其整合到生成的文本中。此外,相较于男性用户,这类系统的错误率更高。

拼写错误后更多错误建议

研究团队解释称,他们利用AI生成了数千条经过微调的患者信息消息,并让如GPT-4等常见聊天机器人对其进行评估。这些聊天机器人需判断患者是否应留在家中观察、需不需要前往医院,或者是否需要进行实验室检测。一旦在评估的消息中加入了某些错误(这些错误通常反映人们日常沟通中的特征),聊天机器人明显更倾向于建议患者自行处理问题——而这在许多情况下是错误的。

研究团队还注意到,聊天机器人较常建议女性患者居家自我护理,而男性患者则较少收到类似建议。团队警告称,如果仅检查所提供信息的准确性,可能会忽略一些“最糟糕的结果”,例如尽管症状严重却仍建议患者留在家中。虽然这类错误可能带来极其严重的后果,但反向错误(即不必要地建议患者就医)的影响较小。然而,在统计分析准确率时,这类反向错误可能导致其他问题被忽视。

研究团队指出,聊天机器人通常是通过和基于医疗检查相关的文本来训练和测试的,但在实际应用中,它们接触到的文本往往与此类内容大相径庭。这也是为何在医学领域中使用前,需要对其进行更加全面的测试的原因之一。该团队计划进一步研究AI如何处理特定人群使用的自然语言,同时还将探索技术如何从文本中推断性别。他们的研究已在线发布。


(全文结束)

声明:本文仅代表作者观点,不代表本站立场。

本页内容撰写过程部分涉及AI生成(包括素材的搜集与翻译),请注意甄别。

7日热榜