深入研究PubMed记录:自ChatGPT以来受人工智能影响的词汇如何改变医学写作
原创研究
作者:松井健太郎(Kentaro Matsui)
摘要
引言: 据估计,包括ChatGPT在内的大型语言模型(LLMs)已在学术论文写作中得到广泛应用。本研究考察了文献报道中LLMs频繁使用的某些词汇和短语是否在医学文献中增加,并将其趋势与常规学术表达进行比较。
方法: 通过结构化文献综述,从15项记录LLM词汇模式的研究中识别出135个可能受人工智能影响的术语。作为对照,选取了84个医学研究中常见的学术短语。分析了2000年至2024年PubMed记录中这些术语的使用频率。使用修正Z分数转换对使用趋势进行标准化。
结果: 在135个可能受人工智能影响的术语中,103个在2024年显示出显著增加(修正Z分数≥3.5)。增幅最大的术语包括"深入探究"、"强调"、"主要"、"细致"和"夸耀"。线性混合效应模型显示,与对照组相比,可能受人工智能影响的术语使用率显著更高(β = 0.655,p < 0.001)。值得注意的是,这些术语的使用从2020年开始增加,早于ChatGPT在2022年的发布,在2023-2024年加速增长。
讨论: 自ChatGPT问世以来,某些词汇和短语在医学文献中变得更加普遍。然而,这些术语的使用在2022年前就已开始增加,表明LLMs的出现可能放大了已有趋势,而非创造了全新的模式。通过了解哪些术语被AI过度使用,医学教育工作者和研究人员可以促进对AI辅助草稿的更好编辑,并在科学写作中保持词汇多样性。
引言
ChatGPT于2022年11月30日发布后迅速实现了全球广泛应用。作为大型语言模型(LLM),ChatGPT接受了海量文本数据的训练,能够以惊人的流畅度生成自然语言。发布后不久,ChatGPT在医学和生物领域科学写作中的适用性便显现出来[1,2]。由于对其功能的热切追捧,它曾被列为多篇论文的作者,引发了广泛争议(目前AI在学术出版物中不被认可为作者[3])。甚至有人认为在论文写作中使用ChatGPT属于抄袭[4],但实际上,ChatGPT、Gemini和Claude等LLMs已开始用于论文写作。LLMs在学术写作中有多种应用方式[1,5],对于母语非英语的研究人员的科研活动也具有重要意义[6,7,8]。已建立了一个框架,允许在写作中使用LLMs,前提是其参与得到充分说明[3]。
随着LLMs的实用性日益明显,使用它们撰写论文的研究人员数量逐渐增加[9,10,11,12,13,14,15,16]。早期关于检测LLM生成文本的研究确定了几个常用词汇,如"值得称赞的"、"细致的"、"复杂的"和"领域"[10,11,12,17]。这些调查依赖于比较人类和LLM生成文本的真实语料库,但由于其黑箱性质以及对提示或模型偏差的敏感性,限制了其普适性。最近,Kobak等人分析了2010年至2024年间发表的超过1500万篇PubMed生物医学摘要,通过推算ChatGPT前(2021-2022年)的词汇频率到2024年,检查"过度词汇";他们的分析揭示了2022年后"深入探究"和"强调"等风格词汇前所未有的激增[16]。然而,此前没有研究定量测试过先前确定为与LLM相关的词汇和短语是否比常规医学表达长期不成比例地增加。
最近的讨论表明,大型语言模型的词汇偏好可能受到基于人类反馈的强化学习(RLHF)的影响[18],该方法奖励人类评估者偏好的风格特征[19]。在这种强化影响的模型行为中,一些后来成为LLM生成写作标志的词汇可能在2022年ChatGPT公开发布前就已经在增加使用。为探究这种可能性,本研究考察了2000年至2024年间PubMed索引摘要中与LLM相关的词汇和短语的长期趋势,测试其在ChatGPT引入后相对于稳定对照表达的增加是否加速。
材料和方法
文献搜索与筛选过程
为从文献中识别可能受人工智能影响的术语,我进行了结构化文献综述,采用范围综述方法。我在Scopus中搜索了已发表论文和预印本,将它们作为独立类别进行分析。我纳入了明确报告LLMs相比人类写作更频繁使用的单词或短语的记录,或关注ChatGPT出现后使用频率增加的术语的研究,如Kobak等人报告的"过度词汇"[16]。如果所有识别的术语在早期文献中已有报道,则排除这些研究。搜索策略使用了以下查询:TITLE-ABS-KEY ((ChatGPT OR "large language model*" OR LLM*) AND (academi* OR scientif* OR scholar* OR "peer review*") AND (vocab* OR lexic* OR (word* W/2 (frequen* OR usage OR shift*)) OR (LLM* W/2 modif*) OR (generat* W/1 text) OR prevalen*)) AND PUBYEAR > 2021。
在数据管理方面,我使用Scopus内置导出功能以CSV格式获取已发表论文。由于Scopus不提供预印本的CSV导出功能,预印本记录从Scopus网页界面提取,并使用自定义Python脚本(可在
搜索得到910篇已发表记录;其中38篇通过标题和摘要筛选,11篇在全文审查后被纳入。对于预印本,我识别出363条记录,初始筛选后保留27条,全文审查后纳入11条。七条记录同时出现在两个数据库中。去除重复项后,最终分析纳入了15项独特研究[10,11,12,14,15,16,17,18,20,21,22,23,24,25,26]。详细的PRISMA流程图见附录1。
识别可能受人工智能影响的术语和对照组
我从每篇论文中提取了报告为LLMs频繁使用的术语,以及ChatGPT出现后使用频率明显增加的术语。这些术语来源于正文、图表和补充材料,被指定为"可能受人工智能影响的"。一些使用频率增加的短语也被包括在内,仅限于两词表达。我排除了"this"、"these"、"through"和"their"等过于常见的词汇,以及在PubMed搜索中无结果的术语,如"while"和"dive into"。此外,我还排除了与生成式AI明确相关的词汇,如"chatgpt"、"prompt"和"diffusion",因为它们超出了检查LLMs特征词汇使用模式的原始范围。关于从每篇论文中提取哪些词汇和短语的详细信息见附录2。最终列表包含135个可能受人工智能影响的术语(表1)。
表1
检查使用率的词汇和短语。
可能受人工智能影响的术语
动词:address, align, boast, bolster, catalyze, comprehend, delve, elucidate, embark, emerge, employ, emphasize, encompass, endeavor, enhance, excel, exhibit, explore, facilitate, fortify, foster, garner, grapple, harness, highlight, illuminate, integrate, interplay, juxtapose, leverage, navigate, necessitate, offer, outperform, revolutionize, scrutinize, showcase, surpass, transform, transcend, underscore, unearth, unveil
形容词:actionable, commendable, complex, comprehensive, critical, crucial, deeper, essential, exceptional, exhaustive, expansive, fresh, fundamental, groundbreaking, ingenious, innovative, intricate, intriguing, invaluable, meticulous, multifaceted, noteworthy, nuanced, pivotal, potent, potential, renowned, significant, transformative, unlocking, valuable, versatile, well-rounded
副词:accurately, additionally, aptly, compellingly, effectively, effortlessly, excellently, impressively, lucidly, methodically, notably, particularly, predominantly, primarily, profoundly, promptly, reportedly, scholarly, seamlessly, strategically, subsequently, thereby, thoroughly, thoughtfully, ultimately, undoubtedly
名词:advancement, capability, captive complexity, ecosystem, enhancement, essence, finding, foundation, insight, intricacy, journey, landscape, milestone, pipeline, prowess, realm, significance, soil, tapestry, testament, thought, understanding, utilization
短语:deep dive, driving force, ethical consideration, exercise caution, game changer, in addition, in summary, knowledge gap, shed light, vital role
医学领域的常见学术词汇或短语(对照):adverse events, aim of, aimed to, all patients, analysis, associated with, association between, at least, basis of, cohort study, common grade, compared with, control group, cross-sectional, difference between, difference in, dose of, effect of, efficacy, end of, end point, evaluate, examine, further research, higher in, hypothesis, identify, included in, increased risk, independently associated, investigate, is known, less likely, logistic regression, lower in, median follow-up, models, more likely, most common, no difference, objective of, one of, our results, outcome measure, patients who, placebo group, primary endpoint, primary outcome, proportion of, purpose of, randomly, ratio, registered with, regression analysis, results suggest, retrospective, safety, secondary analysis, sought to, statistically, study period, suggest that, this study, this trial, time of, to assess, to compare, to determine, to evaluate, to examine, to identify, to investigate, to receive, treatment allocation, treatment assignment, treatment of, two groups, was found, was used, were assessed, were collected, were enrolled, were performed, were reported
作为对照,我通过提取先前研究中确定的四词词束[27],创建了医学研究中常见学术词汇或短语(最多两个词)的对照组。在排除了包含本研究中列为可能受人工智能影响的术语的表达(如"significant"、"finding"和"potential")后,获得了一组最终包含84个PubMed可搜索表达的对照组(表1)。
PubMed搜索策略
我使用PubMed高级搜索功能( Word"来揭示这些词汇的使用记录数。为确保全面涵盖英语中的动词形式,搜索查询包括基本形式、第三人称单数现在时、现在分词/进行时、过去时和过去分词。对于名词,同时纳入了单复数形式。考虑到PubMed中索引记录的日常增加,搜索条件从2000年1月1日标准化到2024年12月31日。所有词汇/短语的搜索公式见附录3。
统计分析
为调查PubMed数据库中可能受人工智能影响术语的使用趋势,我首先通过将每年包含该术语的记录数除以PubMed中每年的总记录数来计算每个术语的使用频率。这一过程为每个术语和年份生成了使用频率数据集。
接下来,使用修正Z分数转换对使用频率进行标准化,以便于跨术语和年份的比较。对于每个术语,计算中位数和中位绝对偏差(MAD)。修正Z分数通过从每个出现率中减去中位数,将结果除以MAD,然后乘以0.6745来计算。修正Z分数的绝对值达到3.5或更高被视为表示术语使用有显著增加或减少,以识别显著偏差[28],这是先前文献计量学研究中使用的阈值[29,30]。然后,使用线性混合效应模型比较2000年至2024年可能受人工智能影响的术语和常见学术短语的使用情况。数据由每个单词或短语的修正Z分数组成,被重塑为长格式。模型使用R中'nlme'包的'lme'函数构建。它将修正Z分数作为因变量,组别(可能受人工智能影响的术语或常见学术短语)作为固定效应,并为每个单词或短语设置随机截距以解释重复测量。生成模型摘要以评估组别对术语使用的固定效应的显著性。使用'ggplot2'包创建包含95%置信区间的线图,以可视化2000年至2024年每组平均使用的趋势。此外,作为敏感性分析,我排除了2000-2024年PubMed记录少于2,000的可能受人工智能影响的术语(分布的底部10%)后重复了模型。所有统计测试的显著性水平设定为0.05。这些分析使用R 4.3.2版进行。
结果
分析涵盖了2000年1月1日至2024年12月31日期间PubMed索引的总计27,501,542条记录。使用每年的总记录数作为分母确定了每个词汇/短语的频率率,然后计算修正Z分数。
本研究中,在验证的135个可能受人工智能影响的术语中,103个词汇/短语在2024年的修正Z分数超过3.5。许多位于此列表顶部的术语增幅尤为显著,"深入探究"在所检查的术语中得分最高。其他显著增加的术语包括"强调"、"主要"、"细致"、"夸耀"、"值得称赞的"、"展示"、"超越"、"复杂"、"织锦"和"解锁"(完整列表见附录4,图1显示视觉趋势)。而84个常见学术短语(对照组)中的大多数在使用率上没有显示出显著偏差,但"进一步研究"和"旨在"在2024年也超过了修正Z分数3.5。另一方面,"目的"、"结束"、"确定"、"假设"、"结果表明"、"所有患者"和"治疗"等短语在同年显示出明显下降(修正Z分数< -3.5)(详情见附录4)。
线性混合效应模型显示组别(可能受人工智能影响的术语与常见学术短语)对术语使用的修正Z分数有显著影响。模型表明,可能受人工智能影响的术语使用率显著高于常见学术短语(β = 0.655,SE = 0.085,t(217) = 7.674,p < 0.001)。在排除频率分布底部10%的术语的敏感性分析中,这一发现保持一致(β = 0.636,SE = 0.087,t(204) = 7.293,p < 0.001)。线图(图2)展示了2000年至2024年可能受人工智能影响的术语和常见学术短语的平均使用频率趋势。对照组的频率在整个期间保持相对稳定。相比之下,可能受人工智能影响的术语从2020年开始呈急剧上升趋势,在2023年和2024年增幅更为明显。
讨论
本研究考察了2000年至2024年PubMed摘要中与LLM相关的词汇和短语的长期趋势,比较了ChatGPT公开发布前后它们与稳定对照表达的使用模式。与先前发现一致[10,11,12,13,14,15,16,17,18,20,21,22,23,24,25,26],研究结果表明可能受人工智能影响的术语显著增加,"深入探究"、"强调"、"主要"和"细致"在2024年显示出最明显的变化。值得注意的是,虽然常见学术短语在整个研究期间保持稳定,但这些可能受人工智能影响的术语从2020年开始增加,早于ChatGPT在2022年的公开发布,并在2023-2024年显示出明显加速。
在先前研究的基础上,这些研究确定了LLMs频繁使用的特定术语的上升趋势,本研究通过更长期的分析、对照比较(对照短语)和混合效应建模扩展了这些发现,将这些变化量化为"相对增加",超过了常见学术表达的增加。增长始于2020年,并在2023-2024年发布后加速,表明存在"前期趋势加发布后上升"的双相模式。发布前特定术语的增加可能自然发生,并可能已反映在后期LLMs的预训练语料库中,这些语料库由特定时间的网络快照构建(例如,C4,2019年4月[31])。这种暴露可能随后被模型微调期间的RLHF放大,这被认为是LLMs使用特定表达频率增加的主要原因[18]。2023-2024年的加速可能反映了LLMs作为写作辅助工具的公开发布、广泛采用和全面实施。AI写作助手的早期采用者可能吸收并传播了这些语言模式,这可能进一步放大了科学交流中自然发生的趋势。同时,据报道,自2024年3月以来,随着AI偏好的表达被广泛认识,"深入探究"、"复杂"、"领域"和"关键"等词的使用已被有意避免[15]。这些变化的复杂性凸显了持续警惕和研究的重要性,以理解AI语言模型与学术写作风格之间不断演变的动态。
2020-2022年的逐渐增加与AI-based服务(如DeepL翻译和Grammarly)被广泛采用的时期重合[32,33],可能促进了这一趋势。尽管一些研究表明,在某些情况下,基于机器学习的系统可以增强词汇多样性[34,35],但更多证据表明,机器翻译和语法校正工具往往促进简化和词汇规范化[36,37,38,39]。然而,Kobak等人[16]报告称,在ChatGPT前时期(例如,2020-2022年)与两年前相比,没有观察到LLM相关"过度词汇"的明显增加。这一发现表明,非LLM翻译和校对工具对词汇模式的影响可能有限。
有趣的是,作为对照使用的某些常见学术短语在2024年的使用比例也出现了偏差。"进一步研究"和"旨在"这两个短语在2024年的使用频率明显增加,但由于它们是医学学术写作中非常常用的表达,人类很难察觉其频率已增加。相反,"目的"、"结束"、"确定"、"假设"、"结果表明"、"所有患者"和"治疗"这七个短语在2024年的使用显著减少。在解释这些结果时,我们必须记住,论文中使用的语言随着时间自然演变[40];例如,"假设"和"结果表明"甚至在ChatGPT引入前就已经在频率上下降。此外,"结果表明"的使用率每年都有相当大的波动。然而,"所有患者"这一短语在2022年前没有显示出明显的使用频率下降,但似乎在2023年后大幅减少(见附录4)。据报道,某些术语(如"declare"和"clearly")在ChatGPT引入后使用频率下降[24]。此外,还注意到连接词(如"therefore"、"after all"和"to begin with")的使用频率下降[22]。对教育工作者而言,了解在LLM后时代使用频率降低的语言模式可能与认识LLM推广的模式同样重要,这突显了一个被忽视的未来研究领域。
应该指出,本研究无意批评LLMs的使用;对许多研究人员,尤其是非英语母语者而言,这些工具正变得越来越有价值[6,7,8]。相反,通过识别特定的语言模式——其中一些如前所述,在LLM广泛采用前就已呈趋势——我旨在培养批判性意识。这种意识可以赋予医学教育工作者和导师能力,指导作者更审慎地使用LLMs,改进其手稿以提高清晰度并保持其独特的作者声音。医学写作项目的教育工作者可以应用这些见解,鼓励LLM辅助写作的最佳实践;这包括指导学生和受训者批判性地意识到可能过度使用的术语,并积极多样化其词汇。此外,医学教育工作者应强调仔细的人工编辑的重要性,以保留作者的独特声音并确保原创性。他们还应向医学生传达,LLMs最好被视为支持起草和创意生成的工具,而非最终内容的创造者。
本研究存在几个局限性。关键局限性在于可能受人工智能影响术语的选择过程。尽管我使用Scopus进行了结构化和全面的文献搜索,并提取了报告为LLMs频繁使用的术语,但使用单一数据库和由一名研究者进行筛选可能导致遗漏记录或相关表达。此外,由于分析仅限于文献中先前报告的术语,可能存在其他LLMs偏好的词汇或短语未被本研究捕获。然而,此处使用的所有可能受人工智能影响的术语都得到了已发表证据的支持,确保了测试研究假设的客观性和适当性。其次,词汇或短语使用频率的时间变化可能受到外部因素的影响,如演变的研究趋势和科学交流风格的变化,这些因素在本研究中未予考虑。新研究主题的引入,特别是在人工智能、生物技术和大流行相关研究等快速发展的领域,也可能导致这些语言使用的变化。虽然证明了与LLMs兴起的时间关联,但无法建立因果推断;因此,结果应谨慎解释。第三,将修正Z分数应用于时间序列数据存在局限性。识别显著偏差的阈值(绝对值≥3.5)基于惯例而非严格的理论依据。此外,尽管所选的截止值通常被认为是保守的[28],但对多个术语的重复测试存在假阳性的风险。虽然可以考虑时间序列或贝叶斯变点模型等替代方法,但有限的年度数据点数量,特别是ChatGPT后时期仅有两个(2023年和2024年),使得这些模型不稳定。这一局限性源于PubMed数据集的性质;因此,未来使用更细粒度时间数据的研究可能实现更高分辨率的时间序列分析和因果估计。
结论
本研究证明了在ChatGPT引入后,特定词汇和短语在学术写作中的流行度增加。本研究中讨论的可能受人工智能影响术语列表对使用LLMs进行写作的用户以及医学和生物学领域的教育和监督人员都有利。随着LLMs的发展,区分人类和AI生成文本可能变得更加困难[41]。然而,与此同时,学术术语可能会以微妙、难以察觉的方式发生质的变化,逃避人类检测。未来研究应采用更复杂的语言学和文献计量学方法来跟踪和理解这些细微变化。此外,定性方法,如作者调查,可以帮助三角测量这些语言模式是否反映了对AI建议的有意识采用或自然的风格演变。许多研究人员和医学生预计将继续使用LLMs进行写作——毋庸置疑,遵守伦理方面并对最终输出负责仍然是医学教育工作者在培训和指导中使用这些工具时必须强调的关键方面。
数据可获取性声明
所有数据和代码可在
资金声明
本工作得到日本学术振兴会(JSPS)科学研究费补助金(资助号22K15778)的支持。
伦理和同意
本研究不适用书面知情同意,因为它涉及对PubMed公开可用文献计量数据的分析。未收集或分析超出公开可获取作者信息的任何个人参与者数据,且本研究不包括任何可能识别的图像或个人私人数据。
致谢
在准备本工作期间,作者使用了ChatGPT(OpenAI的GPT-4、GPT-4o和GPT-5)、Claude(Anthropic的Claude 3 Opus、Claude 3.5 Sonnet、Claude 3.7 Sonnet、Claude Opus 4.1和Claude Sonnet 4.5)和Gemini(Google的Gemini 1.5 Pro和Gemini 2.5 Pro)进行特定技术协助:起草初始Python代码用于从Scopus网页界面输出中提取和格式化预印本记录、初始R代码模板用于统计分析、改善句子结构以提高清晰度以及一般校对。这些AI工具仅用作写作和编程辅助工具,所有科学概念化、结果解释和结论完全由作者完成。使用这些服务后,作者根据需要审查和编辑了内容,并对出版物内容承担全部责任。
竞争利益
作者声明无竞争利益。
【全文结束】

