研究人员首次评估了人工智能(AI)从同行评审的科学文章中生成播客的能力。使用谷歌的NotebookLM应用程序,研究团队基于《欧洲心血管护理杂志》(EJCN)上发表的研究创建了播客脚本。结果显示,有一半的作者没有意识到播客主持人并非人类。
该研究评估了AI是否能够模拟两位讨论已发表研究的说话者之间的科学对话。研究结果在今年的欧洲心血管护理与相关专业协会年度大会上展示,并同时发表于《欧洲心血管护理杂志》(EJCN)。
太过完美反而不似人类?
AI生成的播客平均时长为10分钟。在不知情的情况下,大多数作者表示他们的研究被清晰、简洁地总结,并且表达结构良好。一些人甚至表示这些“主持人”听起来像是有临床或护理背景的人。
但并非所有反馈都是正面的。一些参与者认为播客的表达过于流畅——缺乏犹豫、重复或自然的互动,从而怀疑其涉及AI。其他人指出了一些医学术语的错误发音和事实错误。例如,有一期播客本应聚焦于心力衰竭的诊断,却错误地讨论了管理。另一期则只讨论了女性,尽管研究中也包括男性参与者。
一些作者还对过于热情、美式风格的叙述语气感到不适,认为用夸张的形容词描述较为平淡的结果并不合适。他们建议,如果该工具面向科学受众使用,应该采用更加学术的语气。
科学传播的潜力
由比利时鲁汶大学公共卫生与初级护理系的Philip Moons博士领导的研究团队基于《欧洲心血管护理杂志》(EJCN)的文章创建了10个播客。尽管存在缺陷,他们得出结论:“AI生成的播客能够以一种易于理解和吸引人的方式总结关键发现。”
作者写道:“播客被认为最适合患者和公众,但如果加以适当调整,对研究人员和医疗保健专业人员也可能有用。”
Moons在一份新闻稿中表示:“令人惊讶的是播客整体上的准确性。考虑到我们才刚刚开始这种AI生成播客的时代,质量将在未来几个月内不断提升。”他认为该工具可以帮助研究人员更有效地传播他们的研究成果。
Moons在谷歌于2024年9月推出该功能后不久,用自己的一篇论文测试了NotebookLM。“当我用自己的一篇文章进行首次测试时,我对其高质量和自然的声音感到震惊。”
在生成播客(时长从5到17分钟不等)后,研究人员通过问卷调查和30分钟视频访谈对内容进行了评估。
缺乏背景信息但互动性强
所有参与的作者都同意播客有效地用简单、易懂的语言传达了他们的研究关键发现。许多人也认为两位“主持人”之间的对话形式使内容更具吸引力。
一些人称赞了主持人的专业性。“我很好奇他们的背景——他们听起来确实像是接受过医学或护理培训的人。”一位作者说道。然而,有些人对缺乏背景介绍感到不安。播客没有提供关于说话者身份或音频如何生成的信息,使听众对来源感到困惑。
总体而言,大多数人认为内容可靠,尽管有少数人指出了一些事实错误。一位作者指出,肥胖被描述为“习惯”,这可能会误导听众,暗示它只是一种生活方式选择。
尽管存在这些问题,有一半的作者——其中一位是AI专家——并没有意识到这些播客是由机器生成的。许多人表示他们“震惊”或“惊讶”于其高质量。大多数参与者都是播客的常规听众。即使是那些怀疑AI参与的人,也被其自然和流畅的结果所震惊。
扩大研究影响力
所有作者都同意未来的版本应明确披露AI的参与。如果目标受众是研究人员,大多数人还建议采用更学术的语气,并更注重研究方法和局限性。
虽然患者和公众被确定为主要受众,但研究人员指出,AI生成的播客可以成为医疗专业人员以低成本、可扩展的方式了解最新研究的一种方式。他们还建议,这种格式有助于提高科学出版物的可见性和传播范围。
Moons表示:“这可能是一种向那些通常不阅读科学期刊的人传播信息的可持续模式。”尽管如此,他强调需要人工监督来“增加细微差别”。他设想了一种混合模式,即AI生成的内容由人工输入补充。
这一愿景可能已经开始实现。谷歌NotebookLM的测试版(目前仅支持英文)现在允许用户与AI进行实时互动。在播客启动后,用户可以直接向其中一位“主持人”提问。AI生成语音回答后,播客将继续播放——无缝整合人机对话。
本故事由 Medscape法文版 翻译而来。
【全文结束】

