随着人工智能(AI)逐渐渗透到诸如医疗保健、金融和执法等关键决策领域,将人类专业知识与AI驱动的预测相结合成为了一个重要的研究课题。虽然AI模型在模式识别和统计准确性方面经常优于人类,但人类的直觉、情境知识和伦理考虑在复杂的决策任务中仍然具有不可替代的价值。然而,研究表明,人类与AI团队的表现往往不如单独的AI模型,这引发了如何优化这种协作的最佳方式的担忧。
最近发布于arXiv(2025)的研究《人类与AI决策中的信息价值》,由Ziyang Guo、Yifan Wu、Jason Hartline和Jessica Hullman撰写,引入了一个决策理论框架,用于评估人类与AI工作流程中的信息价值。该研究旨在确定如何最有效地利用人类和AI的贡献,以提高决策准确性、改进可解释性,并优化AI辅助的工作流程。
量化人类与AI团队中的信息价值
该研究引入了一个新的框架,用于评估信息在人类与AI决策中的作用。与其简单比较人类和AI的准确性,该框架测量的是“互补信息价值”——即新信息在融入AI辅助工作流程后改善决策结果的程度。
研究人员提出了两个关键指标:
- 全局人类互补信息价值:这个指标计算额外信息对决策者表现的整体影响。
- 实例级人类互补信息价值:这评估个别信息在个案基础上对决策的贡献。
通过应用贝叶斯决策理论,该研究建模了理性决策者如何最优地整合来自人类和AI的信息,以最大化决策质量。如果AI模型提供了未被人类利用的关键见解,则增强AI输出的可解释性和呈现可以改善整体性能。相反,如果人类专家拥有AI系统未捕捉到的宝贵情境知识,则可以通过扩展AI训练数据来纳入这些见解。
该框架在三个关键决策任务上进行了测试:胸部X光诊断、深度伪造检测和再犯预测。所有任务的结果表明,改善人类与AI模型之间的信息交流可以显著提高团队表现。
评估AI在医疗诊断和深度伪造检测中的辅助作用
为了证明所提框架的有效性,研究人员在AI辅助胸部X光诊断和深度伪造检测中进行了实验。
在医疗诊断实验中,AI模型被评估其协助放射科医生使用MIMIC数据集中的胸部X光图像诊断心脏功能障碍的能力。研究分析了五种AI模型,包括VisionTransformer、SwinTransformer、ResNet、Inception-v3和DenseNet。结果显示,所有AI模型都提供了超出人类判断的互补信息,至少捕获了人类放射科医生未使用的20%的决策相关信息。其中,VisionTransformer提供的互补信息最高,使其成为协助人类专家的最有效模型。
第二个实验集中在深度伪造检测上,参与者被要求判断一段视频是否由AI生成。参与者首先独立作出判断,然后提供AI生成的预测。有趣的是,尽管AI预测非常有信息量,但人类参与者难以有效地校准他们对AI建议的信心。
研究发现,人类与AI团队仅利用了30%的可用决策相关信息,主要是因为人类无法区分正确的和错误的AI建议。这表明仅仅提供AI辅助是不够的——人类需要更好的工具来解释和执行AI生成的见解。
提高高风险AI决策的可解释性
第三个实验探讨了再犯预测,决策者评估被告再次被捕的可能性。像COMPAS这样的AI系统在刑事司法环境中广泛应用,但它们因偏见、缺乏透明度和可疑的公平性而受到批评。为了解决这些问题,研究引入了一种新的实例级解释技术——ILIV-SHAP,它扩展了SHAP解释,突出显示AI预测中独特补充人类判断的部分。
传统的AI解释关注AI为何作出特定决定,而ILIV-SHAP解释了AI生成的见解如何改进人类判断。研究发现,某些特征如前科、种族和指控严重性被AI模型或人类决策者不成比例地加权。ILIV-SHAP框架提供了一种更透明的方法来评估AI决策是如何作出的,以及它们如何与人类偏见互动,为更道德和可解释的AI辅助决策铺平了道路。
通过提高可解释性,研究表明人类与AI团队可以做出更明智的决策,并减轻算法偏见带来的风险。这在刑事司法、招聘和医疗诊断等领域尤为重要,因为在这些领域,糟糕的AI建议可能导致严重的现实后果。
人类与AI协作的未来:优化决策协同
这项研究提供了一种开创性的方法,通过识别信息差距、优化人类与AI互动并改进AI生成的解释来改善AI辅助决策。研究结果强调了几个关键要点:
- AI应设计为补充而非简单取代人类的专业知识。
- 需要更好的工具帮助人类解释和整合AI建议。
- 在高风险AI应用中,透明度和可解释性至关重要。
- 未来的AI培训应结合人类生成的见解,以增强互补决策。
展望未来,作者提倡进一步进行真实世界的研究和随机对照试验(RCT),以优化AI辅助决策工作流程。通过开发理解并适应人类认知过程的AI系统,我们可以创建既高效又准确的决策管道。
随着AI在关键决策中的嵌入程度不断提高,有效平衡人类直觉与机器智能将成为未来AI与人类协作的关键因素。
(全文结束)

