2024年最热门的博客文章关注了人工智能在医疗、法律和民主等多个领域的应用,突显了人工智能的潜力及其面临的挑战。根据《AI指数》报告,人工智能正变得更加开源,并被广泛整合到各个行业中,投资也在激增,尤其是在生成式人工智能领域。然而,研究表明,这些模型经常产生错误,生成虚假信息,并引发隐私、透明度和安全方面的担忧。在他们的研究中,我们的学者呼吁加强监管、建立伦理框架、严格评估和以人为本的方法来扩展人工智能。
AI指数:13张图表中的AI现状
《AI指数》是斯坦福大学人工智能研究所(Stanford HAI)发布的一份全面报告,追踪了全球人工智能的重要趋势。该故事为读者提供了亮点:今年出现了向开源模型的转变,生成式人工智能的投资激增,以及AI监管的增加。今年共发布了149个基础模型,其中66%是开源的(尽管闭源模型在基准测试中仍表现更好)。美国在模型开发和私人投资方面领先,AI资金达到672亿美元,远超其他国家。人工智能在许多基准测试中达到了或超过了人类水平,推动企业采用AI工具进行自动化和个性化。尽管取得了这些进展,但关于就业安全、AI产品安全和监管措施的需求的担忧正在上升,尤其是年轻和受教育程度较高的群体更加关注AI对就业的影响。
人工智能时代的隐私:我们如何保护个人数据?
通用人工智能(特别是大型语言模型(LLM))的兴起带来了严重的隐私问题:我们的个人数据是如何被使用和保护的?潜在的滥用范围从用于训练的网络数据抓取到由AI驱动的威胁,如声音克隆和身份盗窃。为了应对这些问题,斯坦福大学人工智能研究所的Jennifer King和Caroline Meinhardt在其白皮书《重新思考人工智能时代的隐私》中建议,更强的监管框架是必不可少的。他们倡导转向选择加入的数据共享、供应链方法的数据隐私和集体解决方案,如数据中介,以在AI和大规模数据收集主导的时代赋予用户更多权力。
幻觉法律:大型语言模型中的法律错误普遍存在
像ChatGPT和PaLM这样的大型语言模型(LLM)正在改变法律领域,但也带来了令人担忧的风险,特别是在“幻觉”方面,即生成不准确的法律信息。斯坦福大学RegLab和斯坦福大学人工智能研究所的一项最新研究发现,LLM在处理法律查询时经常产生错误或误导性的回应,关键任务的错误率从69%到88%不等。这些错误尤其常见于复杂或地方性的法律事务,LLM倾向于误解判例法、错误归因和对有缺陷的前提过于自信。虽然LLM有潜力使法律信息的获取更加民主化,但其当前的局限性对最需要准确和细致法律支持的用户构成了风险。研究结果表明,法律领域的AI工具需要谨慎、监督的集成,以确保它们补充而不是削弱人类判断和法律多样性。
AI上法庭:法律模型在1/6(或更多)的基准查询中“幻觉”
近四分之三的律师计划使用生成式AI进行合同起草、文件审查和法律研究。然而,可靠性是一个问题:这些工具已知会“幻觉”或生成虚假信息。这项研究测试了LexisNexis和Thomson Reuters的AI驱动法律研究工具的声明,发现尽管这些工具相比一般模型减少了错误,但仍高达34%的时间会产生“幻觉”。研究突出了AI辅助法律研究过程中的问题,如不准确的引用和“阿谀奉承”,即AI工具同意用户的错误假设。研究结果强调了法律AI产品的透明度和严格基准测试的必要性,因为目前这些工具的设计和性能的不透明性使得律师难以评估其可靠性和遵守道德义务。
生成医疗错误:生成式AI和错误的医疗参考
大型语言模型正在迅速进入医疗保健领域,十分之一的医生使用ChatGPT进行日常任务,一些患者甚至转向AI进行自我诊断。尽管热情高涨,但斯坦福大学最近的一项研究突显了LLM在医疗保健中的可靠性挑战,特别是在验证医疗信息方面。研究人员发现,即使是最先进的LLM也会频繁生成无根据的主张或引用无关来源,例如,GPT-4的检索增强生成在高达30%的时间内产生无根据的陈述。这些问题在非专业用户的询问中更为明显,如Reddit上的r/AskDocs,这表明没有医生调解的患者可能会被误导。随着AI工具在医疗保健中的日益普及,专家呼吁更严格的评估和监管,以确保这些系统提供可靠、基于证据的信息。
斯坦福HAI五年:开创以人类为中心的AI未来
在谷歌工作期间,斯坦福大学计算机科学家李飞飞亲眼目睹了AI如何改变从农业到能源的各个行业。受到启发,她回到斯坦福大学,愿景是让AI以合乎伦理的方式服务人类。这导致了斯坦福大学人工智能研究所(Stanford HAI)的成立,如今已成立五年,致力于塑造合乎伦理的AI。通过跨学科研究、行业合作和积极的政策参与,HAI已成为负责任AI发展的领先声音,投资超过4000万美元用于涵盖医疗、难民援助和可持续采矿的研究项目,同时培养下一代AI领导者和政策制定者。
大型语言模型撰写了多少研究?
斯坦福大学的James Zou和他的团队调查了大型语言模型(LLM)在学术写作和同行评审中的日益使用,发现近18%的计算机科学论文和17%的同行评审包括AI生成的内容。通过语言分析和专家验证,他们识别出某些“AI相关”词汇在ChatGPT发布后的使用量激增。这种快速采用,尤其是在AI和计算机科学领域,突显了LLM在研究中的潜在好处和伦理挑战。Zou主张在LLM使用中提高透明度,指出虽然AI可以提高清晰度和效率,但研究人员必须对其工作负责,以维护科学过程的完整性。
大型语言模型在医疗保健中的应用:我们准备好了吗?
尽管大型语言模型(LLM)在医疗保健领域充满希望,但在将其安全地整合到临床实践中之前,我们还需要克服一些重大挑战,这是斯坦福大学学者的最新研究发现。他们的研究指出,虽然LLM可以通过处理行政任务和回答患者查询来减轻医生的工作负担,但这些工具存在安全隐患,并可能产生导致有害后果的错误。目前对LLM的评估往往依赖于精心策划的数据,而非真实患者信息,且评估工作在不同医疗任务和专科之间不均衡。研究团队建议使用真实患者数据进行更严格、系统的评估,并建议利用人类指导的AI代理来扩大评估工作。
技术政变:新书揭示公司不受限制的权力如何破坏治理
在与斯坦福大学人工智能研究所政策研究员Marietje Schaake的对话中,这位前欧洲议会议员警告了技术公司对民主机构不受限制的影响。她认为,私人公司越来越多地履行传统上由政府保留的职能,如监视、网络安全,甚至影响军事和选举基础设施,而缺乏必要的公共问责制。Schaake结合她在欧洲议会和斯坦福大学的经验,倡导对技术公司实施更严格的监管、透明度和监督,特别是当它们控制着对民主至关重要的大量资源和数据时。她建议的改革包括为立法者设立独立的技术顾问委员会,以及对履行政府职能的公司增加公共问责制。Schaake呼吁公民要求联邦技术监管,支持数据保护法律,并促进数据中心和AI发展的透明度,以捍卫民主原则。
使用NLP检测心理健康危机
随着心理健康需求的激增,斯坦福大学医学生Akshay Swaminathan和Ivan Lopez开发了一种名为Crisis Message Detector 1(CMD-1)的AI工具,以改善危机患者的响应时间。CMD-1使用自然语言处理来识别和优先处理高风险消息,使人类响应者能够在Slack界面中快速分类标记的案例。在心理健康提供商Cerebral的数据测试中,CMD-1在识别紧急情况方面的准确率达到97%,并将患者的等待时间从超过10小时缩短到10分钟。该项目展示了AI在支持临床医生简化工作流程和增强医疗保健环境中危机响应方面的潜力,并强调了有效满足临床需求的协作、跨学科开发的重要性。
(全文结束)

