当Devin Singh还是儿科住院医师时,他照顾了一名在急诊科等待看医生时心脏骤停的小孩。“我记得我给这个病人做心肺复苏,感觉到那个小家伙慢慢离开,”他说。Singh对儿童的死亡感到极度悲痛,他记得自己曾想过,如果等待时间更短,是否能够阻止这一悲剧。
这件事使他下定决心将他的儿科专业知识与他的另一项专长——计算机科学结合起来,看看人工智能(AI)是否能够帮助减少等待时间。利用他目前工作的加拿大多伦多病童医院(SickKids)急诊科的分诊数据,他和他的同事们构建了一系列AI模型,这些模型可以提供潜在的诊断结果,并指出可能需要进行哪些测试。“例如,如果我们能预测出病人有很高的可能性患有阑尾炎并且需要腹部超声波检查,我们可以在病人到达后几乎立即自动安排这项测试,而不是让他们等待6-10小时才能看到医生,”他说。
一项使用SickKids超过77,000次急诊科就诊的回顾性数据的研究显示,这些模型将为22.3%的就诊加速治疗,为每个需要医疗测试的人提速近3小时。然而,AI算法在此类研究中的成功,只是验证这种干预措施是否在现实生活中对人们有帮助的第一步。
适当地测试AI系统在医疗环境中的使用是一个复杂的多阶段过程。但相对较少的开发者正在发布此类分析的结果。一项综述显示,2020年至2022年间,只有65项AI干预措施的随机对照试验被发表。与此同时,像美国食品药品监督管理局(FDA)这样的监管机构已经批准了数百种AI驱动的医疗设备在医院和诊所中使用。“医疗机构正在看到许多未经临床验证就获得批准的设备,”加利福尼亚州洛杉矶西达赛奈医疗中心的心脏病专家David Ouyang说。一些医院选择自己测试这些设备。
尽管研究人员知道一个理想的AI干预措施的临床试验应该是什么样子,但实际上,测试这些技术是具有挑战性的。实施取决于医疗保健专业人员与算法的互动程度:如果人类忽视其建议,一个完美的工具也会失败。AI程序对它们训练数据的人群和它们旨在帮助的人群之间的差异特别敏感。此外,目前尚不清楚如何最好地告知患者及其家人这些技术,并征求他们同意使用他们的数据进行设备测试。
一些医院和医疗保健系统正在尝试使用和评估医学中的AI系统。随着越来越多的AI工具和公司进入市场,团体正在联合起来寻求共识,确定哪种评估工作最有效,并提供最严格的审查。
谁在测试医疗AI系统?
像Singh正在构建的基于AI的医疗应用程序通常被药物监管机构视为医疗设备,包括美国FDA和英国药品及保健品监管机构。因此,审查和授权它们使用的标准通常比药物的标准要宽松。只有一小部分设备——那些可能对患者构成高风险的设备——需要临床试验数据才能获得批准。
许多人认为这个标准太低了。宾夕法尼亚大学费城分校的重症监护医师Gary Weissman审查了他所在领域的FDA批准的AI设备时发现,在他确定的十个设备中,只有三个在其授权中引用了发表的数据。只有四个提到了安全评估,没有一个包括偏见评估,即分析工具的结果是否在不同患者群体中公平。“令人担忧的是,这些设备确实可以并且确实影响了病床边的护理,”他说。“一个患者的生命可能取决于这些决策。”
数据的缺乏使得医院和医疗保健系统在决定是否使用这些技术时处于困难的境地。在某些情况下,财务激励可能会起作用。例如,在美国,健康保险计划已经为某些医疗AI设备的使用向医院报销,使它们在经济上具有吸引力。这些机构也可能倾向于采用承诺节省成本的AI工具,即使它们不一定改善患者护理。
Ouyang说,这些激励措施可能会阻碍AI公司投资临床试验。“对于许多商业企业来说,你可以想象他们会更多地努力确保他们的AI工具可以报销并且有一个良好的财务结果,因为他们看到这推动了采用,”他说。
情况可能会根据市场的不同而有所不同。例如,在英国,全国性的政府资助的健康计划可能会在医疗中心可以获得特定产品之前设定更高的证据标准,英国伯明翰大学研究负责任的AI创新的临床研究员Xiaoxuan Liu说。“然后,公司就有动力进行临床试验,”Liu说。
一旦医院购买了AI产品,它们就不需要进行进一步的测试,可以立即像使用任何其他软件一样使用它。然而,一些机构认识到监管批准并不能保证设备真正有益。因此,它们选择自己进行测试。Ouyang说,这些努力目前大多是由学术医疗中心进行和资助的。
2017年,阿姆斯特丹大学医学中心的重症医学科负责人Alexander Vlaar和同机构的麻醉科医生Denise Veelo开始了这样的尝试。他们的目标是测试一个旨在预测手术期间低血压发生的算法。这种状况,被称为术中低血压,可能导致危及生命的并发症,如心肌损伤、心脏病发作和急性肾衰竭,甚至死亡。
该算法由加利福尼亚州尔湾的Edwards Lifesciences公司开发,使用动脉波形数据——在急诊科或重症监护室的监视器上看到的红线和峰谷。它可以在低血压发生前几分钟预测,从而实现早期干预。
Vlaar、Veelo和他们的同事进行了一项随机临床试验,以测试该工具在60名接受非心脏手术的患者上的效果。在手术期间运行该设备的个体经历的低血压中位时间为8分钟,而对照组则接近33分钟。
该团队进行了第二项临床试验,确认该设备结合明确的治疗方案也适用于更复杂的环境,包括心脏手术和重症监护室。结果尚未发表。
成功不仅仅是因为算法的精确性。麻醉科医生对警报的反应也很重要。因此,研究人员确保仔细准备医生:“我们有一个诊断流程图,上面有当你收到警报时应该采取的步骤,”Veelo说。同一个算法在另一个机构进行的临床试验中未能显示出益处。在那个案例中,“床边医生没有遵守当警报响起时采取行动的规定,”Vlaar说。
人工参与决策的自动化系统
一个完美的算法可能会因为医疗保健专业人员和接受治疗的人的行为差异而失败。
当明尼苏达州罗切斯特的梅奥诊所测试了一个内部开发的用于检测称为低射血分数的心脏病的算法时,该中心的人机交互研究员Barbara Barry负责弥合开发者和使用该技术的初级保健提供者之间的差距。
该工具旨在标记可能处于该状况高风险的个体,这是一种心力衰竭的迹象,是可以治疗的,但通常未被诊断。临床试验表明,该算法确实增加了诊断。然而,在与提供者的对话中,Barry发现他们希望就算法的发现如何与患者交流提供进一步的指导。这导致了这样的建议:如果该应用程序广泛实施,应该包括要点,以便向患者传达重要信息,以便医疗保健提供者不必每次都考虑如何进行对话。“这是一个例子,说明我们如何从务实的试验转向实施策略,”Barry说。
限制某些医疗AI设备成功的另一个问题是“警报疲劳”——当临床医生接触到大量AI生成的警告时,他们可能会变得对它们麻木不仁。Mayo Clinic的家庭医学系主任David Rushlow说,这应该在测试过程中考虑。
“我们每天已经多次被警告我们的患者可能面临哪些状况。对于忙碌的一线临床医生来说,这实际上是一个非常重要的任务,”他说。“我认为这些工具中的许多将能够帮助我们。但是,如果它们没有被准确引入,那么默认情况将是继续以相同的方式做事,因为我们没有能力学习新事物,”Rushlow指出。
考虑偏见
测试医疗AI的另一个挑战是,临床试验结果很难推广到不同的人群。“众所周知,当AI算法在与训练数据不同的数据上使用时,它们是非常脆弱的,”Liu说。只有当临床试验参与者代表工具将被使用的人群时,结果才能安全地外推,她指出。
此外,训练有素的算法在资源丰富的医院收集的数据可能在应用到资源较少的环境中时表现不佳。例如,谷歌健康在加利福尼亚州帕洛阿尔托开发的一种用于检测糖尿病视网膜病变(一种导致糖尿病患者视力丧失的状况)的算法在理论上非常准确。但当该工具在泰国的诊所使用时,其性能显著下降。一项观察性研究发现,泰国诊所的照明条件导致了低质量的眼部图像,降低了工具的有效性。
患者同意
目前,大多数医疗AI工具协助医疗保健专业人员进行筛查、诊断或规划治疗。患者可能不知道这些技术正在他们的护理中被测试或常规使用,目前没有任何国家要求提供者披露这一点。
关于应该告诉患者哪些关于AI技术的信息,持续存在争论。其中一些应用程序正在将患者同意的问题置于开发者关注的前沿。Singh和他的同事正在开发的AI设备就是这种情况,该设备旨在简化SickKids急诊科儿童的护理。
这项技术的一个显著不同之处在于,它将临床医生从循环中移除,使儿童——或其父母或照顾者——成为最终用户。
“这个工具将要做的是获取急诊分诊数据,做出预测,并让父母直接批准——是或否——如果孩子可以被测试,”Singh说。这减轻了临床医生的负担,并加速了整个过程。但这也创造了许多前所未有的问题。如果患者出现问题,谁负责
在 Singh 和他的同事等待资金开始对患者进行试验的同时,该团队正在与法律专家合作,并让该国的监管机构加拿大卫生部参与审查其提案并考虑监管影响。计算机科学家、SickKids 儿童医学人工智能计划联合主席 Anna Goldenberg 表示,目前,“就监管而言,这有点像西部荒野”。
寻找解决方案
各机构正齐聚一堂,讨论如何应对其中的一些挑战。一些专家表示,最好的方法是每个医疗机构在采用医疗 AI 工具之前进行自己的测试。另一些人则指出,由于成本原因,这种方法不可行,因此研究人员和医疗组织正在探索其他选择。
医疗 AI 专家 Shauna Overgaard 表示:“对于大型组织来说,这已经很困难了,对于较小的组织来说,难度会更大。”她是梅奥诊所 AI 验证和管理研究项目的联合负责人,该项目旨在以标准化和集中化的方式测试医疗 AI 工具,以便它们可以在梅奥诊所医疗系统下属的社区医疗机构中使用。
Overgaard 还是健康 AI 联盟的成员,该联盟的成员包括来自行业、学术界和患者权益组织的代表。该联盟由谷歌、亚马逊、微软和 CVS Health 等公司资助,提议建立一个健康 AI 保障实验室网络,该网络将使用一套商定的原则以集中方式评估模型。
北卡罗来纳州达勒姆市杜克健康创新研究所的临床数据科学家马克·桑达克 (Mark Sendak) 表示,这种集中式方法并不理想。“每个机构都需要有自己的内部能力和基础设施来进行测试,”他说。
他是 Health AI Partnership 的成员,该组织由学术界和医疗保健组织组成。该合作获得了帕洛阿尔托 Gordon and Betty Moore 基金会的初始资金,旨在为任何组织建立能力并提供技术援助,使其能够在本地测试 AI 模型。
尼娜·科特勒 (Nina Kottler) 是美国大型医学影像机构 Radiology Partners 的放射科医生兼临床 AI 副首席医疗官,她也认为本地验证至关重要。她希望这些研究的见解可以用来教育那些将要操作这些工具的专业人员。她说,人为因素将是最重要的。“医疗保健领域几乎没有自主的 AI,”她说。“我们必须开始思考如何确保我们测量的准确性不仅是 AI,还包括 AI 和最终用户的准确性。”
评论 (0)