AI的最大盲点不是政治,而是你的健康AI's biggest blind spot isn't politics, it's your health | TechRadar

环球医讯 / AI与医疗健康来源:www.techradar.com英国 - 英语2025-11-05 21:22:12 - 阅读时长4分钟 - 1951字
文章基于HUMAINE大型研究揭示,尽管政治分歧备受关注,但人们在AI使用中最核心的关注点实为健康与福祉话题。通过对英美两国4万余次匿名对话的分析,近半数讨论聚焦心理健康和具体疾病,表明公众正将AI作为心理倾诉对象和健康指导工具。研究指出当前AI评估体系存在根本缺陷:过度依赖技术指标而忽视人本维度,在处理敏感健康查询时可能引发安全风险。作者提出三大关键发现:安全评估的隐性危机、指标驱动的盲目自动化问题,以及真正进步在于系统一致性而非单一技能优化,强调需建立更成熟的评估科学以引导AI发展,使其不仅技术先进,更能切实提升人类福祉。
AI健康与福祉心理健康医疗状况AI评估信任安全盲目自动化可持续协作评估方式转变造福人类
AI的最大盲点不是政治,而是你的健康

在政治极度分裂的时代,研究人员最近发现了一些值得注意的现象。在英国和美国,来自不同政治派别的人们在偏好哪些AI工具方面基本达成一致。

尽管我们经常谈论什么使我们分裂,但事实证明,政治并不是关键的区分因素。最显著影响我们AI偏好的因素更为根本:我们的年龄。

但在这项名为HUMAINE的大规模研究中,最令人惊讶的发现并不是什么使人们产生分歧。

而是当团队分析了来自英美两国代表性样本的4万余次匿名对话主题时,有一个话题以明显优势脱颖而出:健康与福祉。

诺拉·彼得罗娃

Prolific公司AI高级研究员(AI Staff Researcher at Prolific)

虽然近一半的讨论集中在积极健康方面,如健身计划和营养,但相当一部分讨论进入了更为敏感的领域。

关于心理健康和特定疾病的对话是最频繁且最私人的。

人们公开地将这些模型用作心理状态的倾诉对象、情感慰藉的来源以及身体健康指导。

深刻转变

这表明我们与技术的关系发生了深刻转变,并提出了一个令人震惊的问题:我们当前评估AI的方法是否足以判断其实际效用?

诚实地回答是:否。当人们看到简单的AI排行榜时,最大的误解是认为单个数字就能定义哪个模型"更好"。这个问题本身定义不清——在什么方面更好?更重要的是,对谁而言更好?

AI行业已过度专注于技术指标。这种狭隘的关注虽然在特定基准测试上取得显著成果,却使我们在影响日常使用大型语言模型的人本问题上处于盲目状态。

当前的评估主要采取两种形式。一方面,我们有学术基准测试,衡量抽象技能,如模型解决奥林匹克级别数学问题的能力。

另一方面,我们有公共"竞技场",由匿名用户投票决定。这在抽象技术能力与实际有用性之间造成了巨大鸿沟。

正因如此,一个模型可能在测试中表现得像天才,但当你需要它规划复杂项目或处理敏感健康查询时,却可能成为无能的助手。

关键发现#1:真正的安全危机是隐形性

鉴于如此多的对话涉及心理健康和医疗状况等敏感话题,人们可能预期信任和安全指标会成为关键区分因素。然而事实并非如此。当参与者在这一维度上对模型评分时,最常见的结果是平局,该指标的可靠性极低。

这并非说明安全性不重要,而是表明诸如信任和安全性等品质在日常对话中难以可靠衡量。真正考验模型道德底线的情景很少自然发生。评估这些关键品质需要更专业的方法。

一个有力例证来自斯坦福HAI近期研究《探索AI在心理健康护理中的危险》。该研究调查了AI担任心理健康提供者的可行性,并揭示重大风险:模型不仅可能强化对某些疾病的有害污名,还可能因无法识别用户潜在危机而助长危险行为。

这种严格的情景式测试正是我们需要的。令人鼓舞的是,CIP的weval.org等平台已开始实施此类标准化评估,使模型能在高风险情境中接受系统测试。我们迫切需要更多此类评估,以及捕捉AI使用长期影响的机制。

关键发现#2:我们的指标推动盲目自动化,而非有意识协作

这场辩论并非简单的自动化与协作二选一。自动化繁琐重复的工作是种进步,但危险在于"盲目自动化"——纯粹为任务完成而优化,忽视人力成本。

这并非假设性担忧。已有报告显示,年轻人和应届毕业生难以找到入门级工作,因为构成职业阶梯基础的任务正被自动化取代。

当开发者以狭隘效率为焦点构建和评估AI时,我们面临劳动力技能退化的风险,最终创造一个服务于技术而非人的未来。

评估应成为方向盘:若唯一指标是"任务完成了吗?",AI将必然取代而非增强人类。但若同时衡量"人类协作者是否获得成长?"或"人机合作是否提升了最终成果?",方向将截然不同。

HUMAINE研究表明,模型具有差异化技能特征:有些擅长推理,有些精于沟通。可持续协作的未来取决于重视并衡量这些互动品质,而非仅关注最终输出。

关键发现#3:真正的进步在于细微差别

研究中最终胜出的是Google的Gemini-2.5-Pro,但其获胜原因更具启示意义——它因在所有指标和人口统计群体中保持高度一致性而登顶。

这正是成熟技术的体现:最佳模型未必最耀眼,而是最可靠且能力全面。可持续进步在于构建均衡稳健的系统,而非仅优化单一狭窄技能。

这些发现指向AI进步评估方式的根本转变:超越简单排名,深入探究模型在不同群体中的表现差异,以及是否某些群体被无意忽视。

同时需关注协作的人性维度:AI参与应是双赢伙伴关系,还是滑向单方受益的自动化?

最终,更成熟的评估科学并非阻碍进步,而是指引方向。它帮助我们识别盲点,将AI发展引向既技术卓越又真正造福人类的轨道。

世界是复杂的、多样的、微妙的;是时候我们的评估也具备同等深度了。

【全文结束】

大健康

猜你喜欢

  • 食物不安全:痴呆症的意外风险因素使患病几率提高60%食物不安全:痴呆症的意外风险因素使患病几率提高60%
  • AMT-130基因疗法全解析:亨廷顿病迎来首款有效治疗方案AMT-130基因疗法全解析:亨廷顿病迎来首款有效治疗方案
  • 朱洛克博士探讨淋巴瘤治疗新进展朱洛克博士探讨淋巴瘤治疗新进展
  • 肠道细菌或影响人类基因开关机制 重塑疾病风险认知肠道细菌或影响人类基因开关机制 重塑疾病风险认知
  • 拼写错误如何改变你的AI医疗诊断拼写错误如何改变你的AI医疗诊断
  • 新型AI工具可评估1000多种疾病的发病风险新型AI工具可评估1000多种疾病的发病风险
  • 2025年重塑医疗保健的25项代理AI创新2025年重塑医疗保健的25项代理AI创新
  • 基因组医学中的人工智能特刊客座编辑介绍基因组医学中的人工智能特刊客座编辑介绍
  • 可穿戴设备悄然扫描用户情绪状态可穿戴设备悄然扫描用户情绪状态
  • 可持续医疗实践有益呼吸健康可持续医疗实践有益呼吸健康
  • 肠道微生物群对心理健康的因果相关及双向作用肠道微生物群对心理健康的因果相关及双向作用
  • 什么是菌群与微生物组什么是菌群与微生物组
  • 临床医生警告医疗人工智能工具潜在缺陷临床医生警告医疗人工智能工具潜在缺陷
  • AI模型可提前数十年预测疾病风险AI模型可提前数十年预测疾病风险
  • 新AI工具可一次性评估1000多种疾病风险新AI工具可一次性评估1000多种疾病风险
  • 每日饮用咖啡对肝脏的影响每日饮用咖啡对肝脏的影响
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康