医学教育视频中的体格检查识别:零样本多模态人工智能与时间序列优化研究JMIR AI - Physical Examination Identification in Medical Education Videos: Zero-Shot Multimodal AI With Temporal Sequence Optimization Study

环球医讯 / AI与医疗健康来源:ai.jmir.org美国 - 英语2026-01-01 23:35:46 - 阅读时长22分钟 - 10910字
本研究提出一种创新方法,通过整合零样本多模态大语言模型与轻量级时间序列建模,精准识别医学教育客观结构化临床考试视频中的体格检查片段。在500段15分钟考站视频测试中,GPT-4o模型以99.8%的召回率实现体格检查时段自动定位,将需人工审核时长从900秒压缩至175秒,效率提升81%。该技术有效解决长视频处理中的计算瓶颈,通过维特比解码确保时间连续性,特别适用于医疗教育场景对高召回率的严苛要求。研究还揭示相机角度优化与多模态融合的改进方向,为临床技能自动化评估提供可扩展的技术路径,对缓解医学教育资源紧张具有显著实践价值。
医学教育体格检查人工智能多模态大语言模型视频分割OSCE时间序列优化零样本临床技能评估自动分割
医学教育视频中的体格检查识别:零样本多模态人工智能与时间序列优化研究

医学教育视频中的体格检查识别:零样本多模态人工智能与时间序列优化研究

摘要

背景:客观结构化临床考试(OSCE)广泛用于评估医学生能力,但其评估过程资源密集,需经培训的评审员审阅15分钟视频。体格检查(PE)环节通常仅占视频的很小部分;然而,现有自动化方法因计算限制和难以维持时间连贯性,难以处理长时医疗视频。

目的:本研究旨在验证多模态大语言模型(MM-LLMs)能否在无需预训练的情况下有效分割OSCE视频中的PE时段,从而减轻人工评分员和自动化评估系统的工作负担。

方法:我们分析了德克萨斯大学西南医学中心模拟中心5个OSCE考站的500段15分钟视频,以人工标注的PE时段为基准。视频帧以1秒、2秒或3秒间隔采样,通过姿态检测预处理过滤无人帧。6种MM-LLMs使用标准化提示进行帧级状态分类,采用隐马尔可夫模型与维特比解码确保时间一致性,将状态合并为3个主要活动(问诊/记录、体格检查、无医生),并添加边缘缓冲区避免截断真实PE片段。通过召回率、精确率、交并比(IOU)和预测PE时长(95%置信区间)计算每段视频性能并取平均值。

结果:在1秒采样下,GPT-4o达到召回率0.998(95%置信区间0.994-1.000)、IOU 0.784(0.765-0.803)和精确率0.792(0.774-0.811),平均每段视频识别175秒(标准差83秒)内容为PE,对比标注PE时长126秒(标准差61秒),审核时长减少81%(从900秒降至175秒)。各考站召回率均保持高位,IOU差异与检查形式和相机几何结构相关。增加采样间隔会轻微降低召回率但改善IOU和精确率。对比基线模型(如Gemini 2.0 Flash、Gemma 3和Qwen2.5-VL变体)显示召回率与过度选择的权衡;GPT-4o在高召回率模型中表现最佳。错误分析表明:遮挡或言语指导动作会导致漏检,准备动作会产生误报,提示需优化相机位置和多模态融合(如音频线索)。

结论:将零样本MM-LLMs与轻量级时间建模相结合,可有效分割OSCE视频中的PE时段而无需大量训练数据。该方法在保持临床评估完整性的同时显著缩短审核时间,证明结合零样本能力与轻量监督的人工智能方法可针对医学教育需求优化。该技术为多样化医学教育场景中的临床技能评估奠定了高效可扩展的基础。

关键词:人工智能;医学教育;多模态大语言模型;视频分割

引言

背景

客观结构化临床考试(OSCE)自20世纪70年代引入以来,一直是医学教育评估的重要组成部分,为评估临床能力提供标准化方法。在这些考试中,医学生轮流进入多个15分钟考站,与标准化患者互动,展示沟通、体格检查(PE)和临床推理技能。这种受控环境确保在儿科评估或外科咨询等不同场景中保持一致的评估标准。近期文献计量地图显示,OSCE研究持续扩展,重点关注表现、能力和技能,凸显评分OSCE考试的评估焦点。

OSCE评分严重依赖经培训的标准化患者评审员审阅录像,根据强调口头沟通、情商和PE熟练度的评分表评估学生表现。这一人工流程劳动密集且资源消耗大,随着医学院扩大培训规模,形成显著瓶颈。

尽管自动化评估在医学考试书面部分已取得进展(利用自然语言处理分析成绩单和笔试),但OSCE等基于视频的评估仍难以自动化。复杂性源于临床互动的动态视觉特性,包括需要深度领域理解的细微动作和手势。

现有多模态模型因计算限制和难以维持长时间序列的上下文连贯性,难以处理15分钟OSCE录像。模型必须截断序列或大幅降采样,牺牲关键细节。这些限制在PE评估中尤为突出,学生实践技能需精确评估。因此,PE评估仍是自动化OSCE评估的关键缺口,识别和隔离这些片段是全面自动化临床能力评估的基础步骤。此外,新兴证据表明大语言模型可处理复杂多模态临床案例,进一步支持我们选择多模态大语言模型(MM-LLMs)进行视频理解。

意义

为解决这一缺口,我们提出一种根本区别于通用视频分类方法的新途径。与传统方法为整个录像分配单一标签不同,我们的方法执行时间分割,精确定位OSCE视频中的特定活动。这种区分在教育环境中至关重要,因为评审员需要评估在短暂片段中展示的离散技能,例如通常仅占总录像时间15%-20%的PE部分。

尽管PE评估在医学教育中至关重要,据我们所知,本研究是首次尝试自动分割OSCE视频中的PE时段。虽然时间分割方法已在其他领域应用,但OSCE评估的独特要求——特别是需要近乎完美的召回率以捕获短暂检查组件——提出了通用方法未设计解决的特殊挑战。

我们的方法通过隐马尔可夫模型(HMMs)整合MM-LLMs与维特比解码,创建专门针对医学教育需求的解决方案。这种组合利用MM-LLMs进行帧级分类的上下文理解能力,同时应用维特比解码过滤杂乱的假阳性和假阴性,确保在整个视频时间线上一致分割检查活动。我们的主要研究问题是:MM-LLMs能否在无需跨多样化检查场景的专门训练的情况下,准确识别OSCE视频中的PE活动?

我们在德克萨斯大学西南模拟中心的5个OSCE考站(家庭医学、外科1、外科2、内科1和内科2)的500段录像上评估该方法。每个考站呈现独特挑战,从不同检查技术到多变的空间配置。此外,由于房间设置差异,每个考站使用不同相机角度,使我们能够测试该方法在多样化录制环境中的鲁棒性。

通过简化视频分析,我们的方法不仅提升评分效率,还为全自动OSCE评估奠定基础。这一进展与基于能力的医学教育框架的广泛转变相一致,在该框架中,临床技能的高效客观评估日益重要。随着医学教育发展以满足日益增长的医疗 workforce需求,此类技术创新可显著提高临床技能评估的可扩展性和一致性,同时缓解机构资源限制。

方法

研究设计与数据集

本研究分析了德克萨斯大学西南模拟中心医学生的OSCE视频。我们特别关注见习期间进行的综合OSCE。在2019年秋季进行的10个OSCE考站中,我们选择了包含PE组件的5个:家庭医学、外科1、外科2、内科1和内科2。每个考站随机选取100段视频(共500段),每段长约15分钟(900秒)。

视频以1920×1080分辨率录制,配备2个固定摄像头:一个面向患者,一个面向医学生。分析中主要使用面向患者的摄像角度,以最佳捕获医学生在PE期间的动作。

基准标注

为建立模型评估的基准,一名具有急诊医疗技术人员水平的专业人员手动标注所有500段视频中的PE时段。我们使用明确的视觉标准定义PE时段:当医学生为评估目的直接接触患者时开始(如耳镜光线与患者眼睛对齐进行眼部检查时),所有直接评估活动结束时终止。此定义排除了检索检查工具等准备活动,确保仅标注明确的检查活动。鉴于识别直接物理接触起止点的直接性,单个专家标注员足以完成此任务。

自动化PE分割工作流

我们的方法采用精简流程识别OSCE视频中的PE时段。该过程包括人体检测预处理、MM-LLMs直接帧分类以及通过维特比解码实施时间一致性。完整工作流如图1所示。

预处理:人体姿态检测

我们使用YOLO11(Ultralytics公司)检测每帧中的人体存在。此预处理步骤通过仅让MM-LLM处理含人物的帧来优化计算效率。无人帧自动分配至"无医生"状态。

该模型识别人体骨架边界框,配置为每帧检测最多2人(医学生和标准化患者),符合OSCE系统设计。我们设置人体检测的最小置信阈值为0.5,在检测灵敏度与计算效率之间取得平衡。

对于含人物的每帧,我们创建包含所有检测个体的方形边界框。如图1所示,这些裁剪帧随后调整为512×512像素以供MM-LLMs处理。

帧分类方法

我们以3种不同采样率进行帧分析,评估计算效率与准确性的权衡:每秒1帧(1秒间隔)、每2秒1帧(2秒间隔)和每3秒1帧(3秒间隔)。这些特定采样率旨在平衡计算需求与检测准确性。3秒间隔的下限特别重要,因为OSCE中的PE有时很短暂(特定技术仅2-3秒)。采样频率过低将完全遗漏这些短暂检查组件。

对于帧分类,我们评估了6种MM-LLMs:GPT-4o(2024年11月6日版)、GPT-4o-mini(2024年7月18日版)、Gemini 2.0 Flash(2024年2月5日版)、Gemma 3、Qwen2.5-VL-72B和Qwen2.5-VL-7B。开源模型托管在德克萨斯大学西南医学中心共享高性能计算基础设施BioHPC的图形处理器节点上。专有模型通过符合健康保险流通与责任法案(HIPAA)和家庭教育权利与隐私法案(FERPA)的安全应用程序接口访问。这些模型使用结构化提示分析每个预处理帧。

维特比解码进行状态预测

获得帧级分类后,我们实施带维特比解码的隐马尔可夫模型(HMM),以实施时间一致性并解决帧级预测的固有噪声。通过合并5个初始类别,我们将分析简化为反映OSCE互动基本活动的3个主要状态(图2A):记录/问诊、体格检查和无医生。

我们从每个考站随机选取10段视频(共50段)计算HMM的平均转移和发射矩阵(图2B)。在500次自助重采样中(每段视频),两个矩阵的元素均绝对变化为0.008,自转移的95%置信区间平均约0.046。转移矩阵捕获状态间转换概率,而发射矩阵表示给定真实潜在状态下观察到特定状态的概率。

基于OSCE协议,我们将"无医生"初始化为起始状态,因为会话以患者独处检查室开始。随后通过PyHHMM库应用维特比算法,确定最可能的状态序列并识别PE时段。

为确保捕获完整PE时段,我们在检测时段边缘添加与帧采样率成比例的缓冲时间(图3)。此缓冲补偿了采样帧间可能发生的转换。不同缓冲时间(0、15和30秒)对性能指标影响的附加实验见补充材料2,展示增加缓冲尺寸如何以精确率和IOU为代价提高召回率。

评估指标

我们使用4个主要指标评估模型性能,按每段视频计算并在所有视频上取平均值。

首要指标是召回率,即模型正确捕获的标注PE时段比例。高召回率至关重要,因为遗漏任何PE片段都会损害临床技能评估:

召回率 = 正确识别的PE时长 / 标注PE总时长

召回率为1表示完全捕获PE,0表示未捕获任何PE。

第二指标是精确率,即预测PE片段的准确性,计算为正确预测PE时长与总预测PE时长的比率:

精确率 = 正确识别的PE时长 / 预测PE总时长

第三指标是IOU,衡量预测与实际PE时段的重叠准确性:

IOU = 正确识别的PE时长 / (标注PE时长 + 预测PE时长 - 正确识别时长)

第四指标是预测PE长度,通过量化潜在视频审核时间减少评估实际效用:

审核减少率 = (900 - 预测PE时长) / 900

我们优先考虑高召回率模型,接受略长预测以确保关键检查片段不被遗漏。所有指标按每段视频计算并在数据集上取平均值,报告95%置信区间。

伦理考量

本研究经德克萨斯大学西南医学中心机构审查委员会批准(STU-2022-0908)。机构审查委员会授予对现有OSCE录像回溯分析的知情同意豁免,这些录像是FERPA保护的教育记录。原始视频保存在安全机构服务器上,仅限研究工作人员访问;分析在符合HIPAA和FERPA的系统上进行,仅使用去标识化时间戳和汇总指标进行报告。参与者未获报酬。手稿及补充材料不包含可识别图像或视频帧,因此无需遮盖。

结果

采样率下的整体模型性能

我们的评估将手工标注PE时段与5个OSCE考站(n=500视频)中通过我们方法识别的时段进行比较。我们将召回率作为首要指标,因为遗漏检查组件可能导致高风险教育评估中临床技能评估不完整。表2显示了所有模型和采样率的综合结果。

在评估的所有模型中,GPT-4o、Gemini 2.0 Flash和Gemma 3在1秒采样率下达到最高召回率(分别为0.998、0.999和0.995)。我们选择GPT-4o作为最优模型,因其在高召回率模型中兼具最佳IOU(0.784)和精确率(0.792)以及最低预测长度(175秒)。

在1秒采样下,GPT-4o-mini的IOU显著高于GPT-4o(平均0.835对比0.785;均差0.050,95%置信区间0.032-0.068;P<0.001)。相反,GPT-4o的召回率显著高于GPT-4o-mini(平均0.998对比0.945;均差-0.052,95%置信区间-0.064至-0.041;P<0.001),体现了精确率-召回率权衡。

我们观察到增加采样率通常会降低召回率,同时提高IOU和精确率。采样率与召回率之间的这种反比关系表明采样频率如何影响检测性能:更频繁采样捕获更多检查事件,但可能引入更多假阳性。使用自助中位数HMM矩阵在1秒采样下未显著改变性能(Δ召回率≤0.002;ΔIOU≤0.003)。

分类分布分析

图4展示了不同时段的分类分布,揭示模型间的明显模式差异。在3个主要状态的分析中,所有模型显示出相对一致的分类模式,GPT-4o-mini和Qwen2.5-VL-72B明显将更多"无医生"时段分类为"准备"。

在PE时段内,所有模型正确将高比例帧识别为"体格检查"。缓冲期分析(-20秒至+20秒)显示状态间的渐进转换,而缓冲期外的分类正确显示极少"体格检查"识别,证实模型的空间准确性。

每秒1帧的考站特异性性能

我们考察了5个不同OSCE考站类型间的性能差异,以评估该方法对不同临床场景的适应性。图5显示GPT-4o在所有考站上均实现高召回率性能,多数案例达到近100%召回率。

家庭医学考站表现出最高IOU(平均0.93),可能因为该考站不要求医学生将患者置于仰卧位评估,减少了假阳性PE分类。外科1和内科2考站显示最低IOU均值(分别为0.72和0.71),但性能仍保持强劲。

图5底部的PE长度差异分析表明,GPT-4o在所有考站上预测的检查时段通常略长于基准真相,均差范围从11秒(家庭医学)到68秒(外科1)。这些延长预测确保全面捕获检查活动,同时保持可管理的审核片段。

分类错误分析

我们确定了影响模型性能的两类主要错误案例:降低召回率的假阴性和降低精确率与IOU的假阳性。表3将这些错误归类为5种不同故障模式并附代表性示例。

  1. 画面外检查:错误类型为假阴性,模型分类为"无医生",真实分类为"体格检查"。模型输出:"患者坐在椅子上,画面中无医生"。故障原因:相机未能捕获患者腿部周围的完整检查。
  2. 患者视角遮挡:错误类型为假阴性,模型分类为"问诊",真实分类为"体格检查"。模型输出:"患者坐在椅子上,医生正在咨询患者"。故障原因:医学生遮挡患者视图,而医生正在触诊患者手部。
  3. 言语指导检查:错误类型为假阴性,模型分类为"问诊",真实分类为"体格检查"。模型输出:"医生似乎坐着观察患者,可能正在与患者交谈"。故障原因:无音频时,区分患者走向医疗椅与测试步态极为困难。
  4. 准备活动:错误类型为假阳性,模型分类为"体格检查",真实分类为"准备"。模型输出:"医生站在患者旁边,似乎正在检查或互动患者肩膀,表明正在进行体格检查"。故障原因:医生降低患者座椅时,模型因学生手部位置误判为评估患者肩膀。
  5. 俯视角度:错误类型为假阳性,模型分类为"体格检查",真实分类为"问诊"。模型输出:"医生蹲在患者面前,似乎正在检查或互动患者下身,表明正在进行体格检查"。故障原因:相机位置高于眼平线时,若医学生靠近患者记录,手部悬停患者腿部解释某事,模型因手部位置误判为评估腿部。

所有错误分析图像(表3)由Grok 3(xAI)生成,以保护患者和学生隐私,同时准确反映OSCE视频中观察到的分类挑战。

这些故障模式为未来系统优化提供了宝贵见解,特别是关于相机位置和额外上下文信息整合的潜力。

讨论

主要发现

本研究证明,整合MM-LLMs与时间建模为自动分割OSCE视频中PE时段提供了有效解决方案。我们的方法实现99.8%召回率,同时将需审核视频内容减少81%,为医学生临床技能的手动和自动化评估带来显著效益。

发射矩阵(图2B)显示"体格检查"状态的帧级准确率为63.5%,31.8%因视觉特征相似被误分类为"对话"。然而,高自转移概率("体格检查"为0.857)使维特比解码能够实施时间一致性,尽管存在帧级噪声仍产生准确分割,证明此任务需要时间建模。

对医学教育评估的意义

GPT-4o实现的高召回率(99.8%)代表临床技能评估的关键进展。在医学教育中,遗漏短暂检查组件可能导致不完整评估,可能忽略决定通过或失败的关键错误或精湛技术。我们的方法确保全面捕获检查活动,同时大幅减少审核负担。

通过将15分钟(900秒)视频缩减至平均175秒相关内容,我们的方法为教育机构创造显著效率提升。对于在多个考站进行数百名学生的OSCE项目,这可能转化为显著时间节省,潜在年节省数千小时。除时间节省外,该方法通过让评审员关注学生表现最相关片段,提升评估质量。

考站特异性性能分析揭示影响检测准确性的上下文因素。家庭医学考站实现最高精确率(93.2%)和IOU(93.4%),可能因其坐姿检查格式且患者重新定位最少。相比之下,外科考站精确率变异性更大(72.3%),反映频繁患者重新定位和不同检查技术带来的挑战。这些发现凸显PE上下文如何影响检测性能,并建议针对不同临床场景的潜在优化策略。

成本效益考量

比较模型配置时,GPT-4o以约1.25美元/15分钟视频的成本实现近乎穷尽的PE帧捕获(召回率=0.998)但IOU较低(0.784),而GPT-4o-mini以约0.06美元/视频的成本实现较低召回率(0.945)但更高IOU(0.835)。部署解读中,GPT-4o最大限度降低遗漏检查内容风险,适用于召回率至关重要的场景(如高风险评估),而GPT-4o-mini提供近20倍成本降低,产生更保守片段以简化审核。操作点选择应反映当地对遗漏帧的容忍度、期望审核效率和预算限制。

实用实施建议

教育环境实施应首先优化相机定位。我们的错误分析确定了几个直接归因于次优相机角度的故障模式,包括画面外检查和患者视角遮挡。基于这些发现,我们建议将相机定位在眼平高度,采用同时捕获医学生和患者的侧面视角。

机构在实施基于人工智能的视频分析系统时,还必须考虑数据隐私法规。我们的研究对专有模型使用符合HIPAA和FERPA的应用程序接口,而开源替代方案托管在安全机构基础设施上。这些方法展示了在教育环境中保持合规性同时利用先进人工智能能力的可行途径。

局限性

本研究在单一机构进行,具有特定房间布局、相机位置和考站设计,可能限制推广到其他教育环境和录制环境。尽管该方法一致识别PE片段,但仅依赖视频帧时,某些动态或言语提示动作(如步态检查)仍具挑战性;整合音频或成绩单可能有助于解决这些问题。当前系统检测PE存在而非分类特定技术,限制了对细粒度技能反馈的即时使用。尽管标注经过质量检查,但我们未进行正式的评估者间信度研究,因此参考标签中的边界不确定性可能依然存在。

关于人类多样性和公平性,所有录像源自单一地点。模型行为可能因肤色、体型、着装、辅助设备或互动风格不同的群体而异,我们未按这些属性分层性能。在广泛部署前,需要进行多站点验证与预设子组分析,以量化任何性能差异并指导缓解策略。

建议与未来工作

未来工作应将此PE和非PE分割扩展至更细粒度、与OSCE评分表一致的技术级标签(如视诊、触诊、叩诊和听诊)。超越二元分割将使输出对反馈和补救立即可行。方法上,将音频或成绩单与视频整合是逻辑下一步,特别是针对动态或言语提示动作;多模态融合可减少边界错误并改善短暂动作识别。同时,需要界面和工作流研究,评估预测片段如何影响真实评分环境中的评审员行为、评估者间信度和总审核时间。

多站点外部验证应通过报告预设属性(如肤色、体型、着装和辅助设备)的子组性能和置信区间,量化泛化能力和公平性。若观察到性能差异,可调整提示设计、后处理或采样策略以缓解差异。前瞻性研究还应使用明确效用框架正式确定模型族和采样率的选择标准,平衡召回率(遗漏PE内容风险)、精确率和IOU(审核效率)以及货币成本;这些研究可纳入配对统计检验,确定目标部署环境中模型配置间观察差异是否显著。

最后,发布时间后处理管道和标准化提示的代码,辅以明确的治理和同意程序,将支持可重复性并加速比较评估。

结论

在大规模OSCE录像库中,零样本MM-LLM结合轻量级时间解码可靠隔离PE时段,同时大幅减少需人工审核的视频时长。该方法满足测试PE片段能否在无需先前任务特定训练的情况下识别以减轻评估负担的研究目标。尽管此工作限于单一地点且针对PE存在而非特定技术,敏感性分析支持时间模型的稳健性,结果共同表明由模型预测片段指导的选择性审核是医学教育评估规模化的一条实用路径。在常规实施前,适当后续步骤包括关注公平性的多站点验证,以及扩展至技术级标签和多模态输入。

致谢

作者感谢参与客观结构化临床考试的标准化患者和医学生,以及德克萨斯大学西南医学中心模拟中心工作人员在数据收集和视频访问方面的协助。微软通过加速基础模型研究计划向AJ提供Azure计算积分。

数据可用性

本研究生成或分析的数据集不公开,因其包含受家庭教育权利与隐私法案保护的可识别音视频OSCE录像,但可根据合理请求向通讯作者索取。

利益冲突

无声明。

参考文献

  1. Hodges B. OSCE!哈登主题的变奏. 医学教育. 2003年12月;37(12):1134-1140.
  2. Harden RM, Stevenson M, Downie WW, Wilson GM. 客观结构化临床考试评估临床能力. 英国医学杂志. 1975年2月22日;1(5955):447-451.
  3. Regehr G, MacRae H, Reznick RK, Szalay D. 检查表与全局评分量表评估OSCE格式考试表现的 psychometric 特性比较. 学术医学. 1998年9月;73(9):993-997.
  4. Ba H, Zhang L, He X, Li S. 客观结构化临床考试领域知识地图与全球趋势:文献计量与可视化分析(2004-2023). JMIR医学教育. 2024年9月30日;10:e57772.
  5. Jamieson AR, Holcomb MJ, Dalton TO, Campbell KK, Vedovato S, Shakur AH, 等. 从评分表到提示:用AI评估医学生接诊后记录. NEJM AI. 2024;1(12).
  6. Shakur AH, Holcomb MJ, Hein D, Kang S, Dalton TO, Campbell KK, 等. 大型语言模型用于医学OSCE评估:成绩单分析新方法. ArXiv. 2024年10月11日预印本.
  7. Vedovato S, Kang S, Holcomb MJ, Campbell KK, Scott DJ, Dalton TO. 通过标准化患者接诊耳检中的情境感知视频分割实现更好反馈. 2024年IEEE首届人工智能医学、健康与护理国际会议论文集; 2024年2月5-7日; 加州拉古纳希尔斯.
  8. Khan KZ, Ramachandran S, Gaunt K, Pushkar P. 客观结构化临床考试(OSCE):AMEE指南第81号. 第一部分:历史与理论视角. 医学教学. 2013年9月;35(9):e1437-e1446.
  9. Epstein RM. 医学教育中的评估. 新英格兰医学杂志. 2007年1月25日;356(4):387-396.
  10. Qian R, Dong X, Zhang P, Zang Y, Ding S, Wang J. 大型语言模型的长视频理解流式处理. ArXiv. 2024年5月25日预印本.
  11. He B, Li H, Jang Y, Jia M, Cao X, Shah A, 等. MA-LMM:用于长期视频理解的记忆增强大型多模态模型. ArXiv. 2024年4月24日预印本.
  12. Zou H, Luo T, Xie G, Zhang V, Lv F, V G, 等. 从秒到小时:多模态大语言模型在全面长视频理解中的综合评估. ArXiv. 2024年12月3日预印本.
  13. AlSaad R, Abd-Alrazaq A, Boughorbel S, Ahmed A, Renault MA, Damseh R, 等. 医疗保健中的多模态大语言模型:应用、挑战与未来展望. 医学互联网研究杂志. 2024年9月25日;26:e59505.
  14. Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Fei-Fei L. 基于卷积神经网络的大规模视频分类. IEEE计算机视觉与模式识别会议论文集; 2014年6月23-28日; 俄亥俄州哥伦布市.
  15. Patil P, Pawar V, Pawar Y, Pisal S. 使用深度学习进行视频内容分类. ArXiv. 2021年11月27日预印本.
  16. Ding G, Sener F, Yao A. 时间动作分割:现代技术分析. ArXiv. 2023年10月21日预印本.
  17. Khanam R, Hussain M. YOLOv11:关键架构增强概述. ArXiv. 2024年10月23日预印本.
  18. Newell A, Yang K, Deng J. 用于人体姿态估计的堆叠沙漏网络. ArXiv. 2016年7月26日预印本.
  19. Moreno-Pino F, Sükei E, Olmos PM, Artés-Rodríguez A. PyHHMM:异构隐马尔可夫模型的Python库. ArXiv. 2022年1月12日预印本.

缩略语

FERPA:家庭教育权利与隐私法案

HIPAA:健康保险流通与责任法案

HMM:隐马尔可夫模型

IOU:交并比

MM-LLM:多模态大语言模型

OSCE:客观结构化临床考试

PE:体格检查

UT:德克萨斯大学

【全文结束】

猜你喜欢
  • 将人工智能融入医学教育的十二条实用建议:支持教育工作者在教学、研究、管理和伦理领域的教程将人工智能融入医学教育的十二条实用建议:支持教育工作者在教学、研究、管理和伦理领域的教程
  • AI加剧精神病症状 治疗师如何帮助客户制定数字安全计划AI加剧精神病症状 治疗师如何帮助客户制定数字安全计划
  • 2026年医疗健康领域人工智能高管预测(上篇)2026年医疗健康领域人工智能高管预测(上篇)
  • 基于大型语言模型的AI智能体驱动的模拟患者系统有望变革医学教育基于大型语言模型的AI智能体驱动的模拟患者系统有望变革医学教育
  • 新得克萨斯州医疗系统将同步启动医院与埃皮克系统新得克萨斯州医疗系统将同步启动医院与埃皮克系统
  • 人工智能与自动化如何变革患者护理人工智能与自动化如何变革患者护理
  • 专家警告医生过度依赖AI工具可能导致批判性思维退化专家警告医生过度依赖AI工具可能导致批判性思维退化
  • 研究测量支持小组中的行为标志物及机器学习在心理健康领域的可行性研究测量支持小组中的行为标志物及机器学习在心理健康领域的可行性
  • 生成式人工智能模型可检测血细胞异常生成式人工智能模型可检测血细胞异常
  • 医疗领域的基础模型:生成式AI、计算机视觉、语言模型与多模态系统的创新医疗领域的基础模型:生成式AI、计算机视觉、语言模型与多模态系统的创新
热点资讯
    全站热点
      全站热文