中国团队完成医疗 AI 多中心临床验证,成果入选《柳叶刀》子刊封面

在一些特定的病种上,AI的表现大有超越医生之势。然而,很多医疗AI产品还在研发和试验训练阶段。在实际的比较试验中,尚未使用大规模未经过滤的临床数据评估医学AI在疾病诊断和治疗决策中的有效性。 大家就有疑问,AI在投入真实临床应用的情况到底会如何?

雷锋网(公众号:雷锋网)了解到,近日,中山大学中山眼科中心刘奕志和林浩添眼科人工智能团队牵头完成了最新的临床多中心随机对照研究,用来比较CC-Cruiser和传统眼科诊所的医生之间的临床差异。这篇论文以封面文章的形式发表在全球权威医学期刊《柳叶刀》子刊EClinicalMedicine(ECM)最新一期(2019 Mar)上。

CC-Cruiser是由中山大学中山眼科中心(ZOC)医学人工智能团队利用深度学习建立的“先天性白内障人工智能诊断决策平台”,该协作云平台支持个体医院之间的患者数据共享,用于数据集成和患者筛查。CC-Cruiser采用的训练数据集包括410例儿童白内障眼图和476例正常眼睛图像,这些图像来自中国罕见疾病专科护理中心的中国卫生部儿童白内障项目(CCPMOH)

摘要

背景:CC-Cruiser是一种用于诊断儿童白内障并提供风险分层和治疗建议的人工智能平台。之前在特定数据集上验证了CC-Cruiser的高精度。本研究的目的是比较CC-Cruiser和眼科医生在实际临床环境中的诊断效果和治疗决策能力。

方法:这项多中心随机对照试验在中国不同地区的五个眼科门诊进行。未确诊白内障或既往眼科手术史的儿童患者(年龄≤14岁)随机(1:1)接受CC-Cruiser或眼科医师(具有5年以上儿科眼科临床经验)的诊断和治疗建议。提供金标准的专家与进行裂隙灯拍摄和数据分析的研究人员不知道分组情况。

主要结果参照白内障专家标准对儿童白内障的诊断。次要结果包括疾病严重程度和治疗确定的评估,诊断所需的时间以及患者满意度,其由平均评分确定。该试验已注册ClinicalTrials.gov (NCT03240848)。

调查结果:2017年8月9日至2018年5月25日期间,350名参与者(700只眼)被CC-Cruiser(350只眼)或眼科医生(350只眼)随机分配诊断。CC-Cruiser的白内障诊断和治疗确定的准确率分别为87.4%和70.8%,分别显著低于眼科医师的99.1%和96.7%(p<0.001,OR = 0.06 [95% CI 0.02-0.19];p<0.001,OR = 0.08 [95%CI 0.03-0.25]。CC-Cruiser诊断的平均时间是2.79分钟,显著小于眼科医师的8.53分钟(p<0.001,平均差异5.74 [95%CI 5.43-6.05])。患者对CC-Cruiser提供的整体医疗服务质量表示满意,CC-Cruise在白内障诊断方面具有节省时间的特点。

解释:与眼科医师相比,CC-Cruiser在诊断儿童白内障和做出治疗决策方面不太准确。但是,CC-Cruiser提供的医疗服务所需时间更少,取得了高水平的病人满意度。CC-Cruiser有能力在其目前的临床实践中协助人类医生。

方法

2.1 研究设计和参与者

这是一个在五个中国眼科诊所进行的大型、多中心、平行组、随机对照试验。我们的研究遵循了综合报告试验标准(CONSORT)指南。该试验的主要研究中心是中山大学中山眼科中心。另外四家诊所分别为深圳市眼科医院、武汉市中心医院、福建医科大学第二附属医院、开封眼科医院。我们选择了来自不同地区的这些合作医院,以代表中国各地医疗保健环境的多样性。

研究人员根据这些医院眼科诊所的纳入标准招募参与者。参与者如果年龄小于14岁,有或没有眼部症状,并且先前没有眼科手术史,则有资格参加该研究。所有参与者都需要进行裂隙灯摄影(slit-lamp photography),必要时使用水合氯醛(chloral hydrate)等镇静剂。 已经明确诊断为白内障,其他眼部正常或眼外伤的患者被排除在外。

在开始时获得每个参与儿童的至少一名监护人的书面知情同意,并且在整个研究期间遵循赫尔辛基宣言(Declaration of Helsinki)中的原则。 该研究方案得到了ZOC伦理委员会和所有合作中心机构审查委员会的批准,包括深圳市眼科医院,武汉市中心医院,福建医科大学第二附属医院和开封眼科医院。 该试验在Clinical Trials.gov(NCT03240848)注册。

2.2 随机化和盲法

参与者被随机(1:1)接受CC-Cruiser或眼科医师的诊断,其中一名参与者(两只眼睛)被随机分配到同一组。通过随机数生成程序进行集中随机化,没有分层因素以避免选择偏倚。每个研究中心的研究人员评估了每位患者的资格。如果患者符合纳入标准,则研究者将患者的信息发送给研究协调员,协调员通知研究者有关分配的组。由经过培训的临床工作人员在每个参与的诊所进行裂隙灯摄影和患者招募。临床工作人员、参与数据管理和分析的研究人员以及在每个诊所提供金标准诊断的专家对组的分配不知情,以预防确认偏倚。研究参与者、眼科医师、研究协调员和负责随机化的研究者不隐瞒分配信息。

2.3 规程

ZOC儿童白内障中心的CC-Cruiser平台通过互联网与所有合作诊所相连。已建立CC-Cruiser网站(https://www.cc-cruiser.com/version1),其中包含指南和说明的演示视频。注册用户可以将新病例上传到CC-Cruiser,输出结果包括:诊断(正常晶状体与白内障),综合评估(不透明区域,密度和位置)以及治疗建议(手术与随访)。具有至少5年儿科眼科临床经验的眼科医师在每个中心提供初步诊断。投资者为每位符合条件且同意的参与者创建了一份资料,并记录了他们的人口统计信息和基线临床特征,包括性别、出生日期、白内障家族史和眼部症状。每个中心的参与调查员和临床工作人员在试验前接受了研究程序的标准化培训。所有符合条件的参与者在分组前进行瞳孔扩张的裂隙灯摄影,其中漫射光为单一标准,裂隙灯照明强度适当和眼睛位置统一。临床工作人员尝试每只眼睛不超过三次。研究人员对43名非常年轻的患者使用镇静剂(水合氯醛),否则他们将不配合这项检查。

AI组的参与者在裂隙灯摄影后被分配到AI诊所。研究人员将眼前段的图像发送给CC-Cruiser并接受初步诊断(正常晶状体与白内障),并对疾病严重程度(晶状体混浊度和不透明度区域,密度和位置)进行综合评估,并提供治疗建议 (手术与随访)。研究人员计算了访问CC-Cruiser并接受初步诊断所需的时间。眼科医师组的参与者被分配到常规眼科诊所。眼科医师向患者提供初步诊断报告,包括疾病严重程度和治疗决策。研究人员还计算了诊断过程所需的时间。

在接受初步诊断后,所有具有识别号码的参与者都接受了专家小组的金标准诊断,其中包括三名白内障专家,他们具有超过10年的眼科临床经验。专家小组进行了裂隙灯检查,达成了共识,为每位患者做出最终的诊断和治疗决策。在初步诊断报告和标准诊断之后,要求参与者及其监护人完成关于他们对诊断准确性和效率的满意度的问卷调查。

2.4 结果

主要结果是诊断正常晶状体与白内障的准确性。由于没有可用于儿科白内障的国际分类系统,因此评估小儿白内障的参考标准是白内障专家的诊断。研究人员使用白内障专家的金标准诊断结果比较了CC-Cruiser的诊断准确性与眼科医师的诊断准确性。次要结果包括评估疾病严重程度,进行诊断所需的时间以及患者满意度。综合评估疾病严重程度,不透明区域(广泛与有限),密度(密集与非密集),位置(中央与外周)和治疗建议(手术与随访)。

当不透明度覆盖超过50%的瞳孔时,不透明度区域被定义为广泛;否则,它被定义为有限的。当不透明度完全破坏眼底成像时,不透明度密度是密集的;否则,它被定义为非密集的。当不透明度完全覆盖视轴区域时,不透明度位置被定义为中心;否则,它被定义为外围。

由于诊断是基于眼前段的裂隙灯图像,因此诊断所需的时间是从图像采集开始到完成CC-Cruiser或眼科医师的初始诊断报告和治疗建议。通过七项问卷对患者满意度进行评估和分析。得分为1表示不同意;2表示中性;3表示同意和4表示非常同意。记录每个项目的参与者数量和百分比,并计算每个项目的平均评级。

2.5 统计分析

使用来自CC-Cruiser的对比测试的数据,我们计算出需要至少700只眼睛的样本量(假设分配比例为1:1,每组350只眼睛)来比较CC-Cruiser和眼科医师之间的诊断准确性。由CC-Cruiser接诊的人工智能门诊预期准确率为90%,眼科医师门诊的预期准确率为95%,统计能力为80%,统计显着性水平为5%。

研究分析遵循全面的、预先规定的统计分析计划。在基线记录人口和临床数据。统计分析基线人口统计学和疾病特征,以确定所有350名参与者(700只眼睛)被随机分成两个研究组。因为没有患者在招募后停止或退出治疗人数与每个方案人口相同。然后,我们主要分析随机分配后初始的所有患者。诊断准确性的分析在眼睛水平,并且同一人的双眼分别在同一组中进行分析。

我们根据金标准(白内障专家)计算了CC-Cruiser和眼科医师的敏感度,特异性、准确性、阳性预测值(PPV)和阴性预测值(NPV)。通过对疾病严重程度和治疗建议的综合评估,进一步分析了白内障的正确诊断。广义估计方程(GEE)方法是准似然方法的扩展,越来越多地用于分析纵向和其他相关数据,特别是当它们是二项分布或计数形式时。

我们使用了来自一个人的两只眼睛的数据,这些数据属于相关数据,因此我们进行了GEE以确定CC-Cruiser和眼科医师之间准确性,真阳性分数(TPF)和假阳性分数(FPF)的显着差异。 TPF相当于灵敏度,FPF相当于1-特异性。 CC-Cruiser和眼科医师所需的时间由Mann-Whitney U检验评估。患者对医疗服务的满意度也计算为具有标准偏差的平均评级。进行Mann-Whitney U检验以确定两组对每个问题反馈的显着差异。 显着性标准设定为α= 0.05。 对于所有模型,结果表示为比值比(OR),95%置信区间和p值的效应值估计。所有统计分析均使用SPSS(version20; SPSS, Inc., Chicago, IL, USA)进行。

结果

在2017年8月9日至2018年5月25日期间,对353名患者进行了资格筛选(图1)。筛选后,三名非常年幼的孩子被排除在外,因为他们不能服用水合氯醛和进行裂隙灯摄影。其余350名参与者(700只眼)被随机分配到AI组(350只眼)或眼科医师组(350只眼)。随机化后没有参与者退出研究。这项研究有350名参与者(700只眼睛)。两组的基线人口统计学和疾病特征(包括性别、年龄、家族史、眼部症状、白内障患者、白内障患者和白内障严重程度)具有可比性(表格1)。

根据白内障专家的标准,诊断的敏感性,特异性,准确性,PPV和NPV分别为89.7%,86.4%,87.4%,74.4%和95.0%。对于CC-Cruiser来说,这些指标分别为98.4%,99.6%,99.1%,99.2%和99.1%(表2)。CC-Cruiser儿童白内障的诊断准确性和TPF显著更低(p<0.001,OR = 0.06 [95% CI 0.02-0.19];和 p = 0.012,OR = 0.14 [95% CI 0.03-0.65]),CC-Cruiser的FPF明显高于眼科医师(p<0.001, OR = 43.05 [95% CI 5.42-341.70])(表2)。CC-Cruiser诊断白内障的准确性明显低于眼科医师。晶状体混浊面积、密度、位置等综合评价正确率分别为90.6%、80.2%、77.1%,眼科医师组为93.3%、85.0%、87.5%(表3)。

与眼科医师相比,CC-Cruiser在评估不透明度区域,密度和不透明度位置时没有显示出统计学差异(分别为p = 0.463,0.286,和0.130)(表3)。CC-Cruiser提供的治疗建议(手术与随访)明显不如眼科医师提供的(70.8%vs96.7%,p<0.001,OR = 0.08 [95%CI 0.03-0.25],表3)。

CC-Cruiser提出诊断和治疗建议所需的时间少于眼科医师所需的时间(2.79分钟vs8.53分钟,p<0.001,平均差异5.74 [95%CI 5.43至6.05],表4)。

在研究结束时,345名参与者完成了评估问卷(CC-Cruiser组172名,眼科医师组173名)。由于个人原因,五名参与者的监护人未完成调查问卷。表5对调查问卷进行了总结。完成调查问卷的答复率为AI组98.3%,眼科医师组98.9%。病人对于CC-Cruiser提供的医疗服务的满意度很高,尤其是诊断所需的时间。CC-Cruiser 整体满意度的平均评分为3.47±0.501 , 高于眼科医师(3.38 ± 0.554,p=0.007,表5),表明患者在接受医疗服务时比实际医生更喜欢AI。

中国团队完成医疗 AI 多中心临床验证,成果入选《柳叶刀》子刊封面

图1. 实验分组

中国团队完成医疗 AI 多中心临床验证,成果入选《柳叶刀》子刊封面

表1:基线人口统计学和疾病特征

中国团队完成医疗 AI 多中心临床验证,成果入选《柳叶刀》子刊封面

表2:儿童白内障的诊断表现;以眼为分析单位(N=700),CC-Cruiser组350只眼,眼科医师组350只眼。

中国团队完成医疗 AI 多中心临床验证,成果入选《柳叶刀》子刊封面

表3:儿童白内障综合评价及治疗建议

中国团队完成医疗 AI 多中心临床验证,成果入选《柳叶刀》子刊封面

表4:CC-Cruiser和眼科医生的诊断过程需要时间;分析包含患者300例(CC-Cruiser组175例,眼科医生组175例)。CC-Cruiser和眼科医生进行Mann–WhitneyU 测试在所需时间上存在显著差异。

中国团队完成医疗 AI 多中心临床验证,成果入选《柳叶刀》子刊封面

表5:问卷调查参与者对临床服务的反应

结论

在本研究中,我们发现CC-Cruiser在诊断儿童白内障和临床治疗决策上不如眼科医师准确。然而,与眼科医师相比,CC-Cruiser诊断耗时短,患者满意度高。这些结果突出了在门诊常规使用前使用随机对照试验评估CC-Cruiser临床性能的重要性。

CC-Cruiser的实际诊断准确性低于我们之前使用筛选数据集进行的研究中报告的准确性。尽管CC-Cruiser在评估眼前段的306个标准图像时非常准确,CC-Cruiser对43例质量差的白内障的误诊和评估往往不如眼科医师准确,这可以归因于几个原因:

首先,由于畏光或缺乏注意力,一些儿科患者无法充分配合并将眼睛注视在相机上。因此,裂隙灯无法正确聚焦在晶状体上。

其次,眼睑和睫毛可能会形成遮挡,从而影响拍摄图像的质量。

第三,如果反射点聚焦在视轴附近,则无法准确提取晶状体反射点的特征,导致CC-Cruiser对白内障的误诊,假阳性率较高。

第四,裂隙灯的强烈照射强度可能导致晶状体混浊,这是CC-Cruiser的假阳性分数较高的另一个原因。

然而,这些问题通常可由眼科医师识别,因为他们可以手动调整焦点并从不同的位置或角度来评估不透明度。较高的假阳性可能增加医疗资源的负担和成本,并可能导致患者的身体或精神损害。

此外,虽然现阶段CC-Cruiser的诊断可能还需要临床医生的介入(包括使用镇静剂)来保证图像采集的质量,但我们相信医疗AI自动聚焦技术的进一步改进将实现更高的诊断准确性以及更少的人为介入。例如,对晶状体反射点的识别的改进可以大大降低误报率。

以往的研究表明,AI辅助诊断可以减轻医生的工作量,并为有需要的患者提供高质量的医疗服务。在这里,我们表明,在临床应用中,医疗AI平台在缩短诊断时间方面优于人类医生。CC-Cruiser组的参与者一致感觉得到了更快的诊断,即诊所需的等待时间显著减少。

患者对医学AI的满意度尚未得到充分研究。Laure等人使用电子健康网站Sanoia评估患者对类风湿性关节炎(RA)护理的满意度。作者表明,研究人员发现,患者的满意度与人工智能平台的使用不一致,主要是因为RA是一种慢性疾病,在病情缓解时,患者可能对使用Sanoia失去兴趣,对疾病的自我管理的投入也会减少。

然而,如果没有早期诊断和适当的治疗,儿童白内障可能对视力造成威胁。因此,儿科患者的家长迫切希望获得医疗服务,高效地进行诊断和治疗决策。

我们的研究表明,患者对CC-Cruiser的总体满意度略高于眼科医师,表明患者在使用AI医疗服务时具有良好的体验。患者的满意度可能是由于他们对医学AI的好奇心或兴趣,或者患者需要在诊断准确性和诊断时间之间取得平衡,更愿意接受耗时更少、诊断准确性可接受的医疗服务。

因此,现阶段的CC-Cruiser已显示出在临床应用中协助人类医生的潜力。在未来的研究中,我们将致力于提高CC-Cruiser的准确性,以提高患者满意度。

该研究的优势包括其随机、对照设计、大样本以及数据来自中国的五个眼科诊所。但是,我们的试验有一些局限性。

首先,因为没有视力模糊等症状的患者不太愿意参与在这项研究中,我们可能错过了一些晶状体轻微浑浊的患者。因此,CC-Cruiser对早期白内障的评估需要进一步改善。

其次,CC-Cruiser提供的治疗建议没有考虑患者的一般情况。因此,CCCruiser提供的一小部分(6例)治疗建议与专家提供的治疗建议不一致,尽管已经准确评估了晶状体的不透明度。 进一步提高治疗决定能力需要考虑非眼科因素,如年龄和健康状况。

第三,我们的人工智能系统依赖于计算能力和互联网的可访问性,因此在没有稳定互联网的发展中地区进行CC-Cruiser广泛应用可能存在困难。但是,那些可以上网的偏远地区仍然可以享受CC-Cruiser提供的医疗服务。

第四,在该试验中进行了一项整群随机对照试验(儿童患者维度的整群),因为随机化是在患者的水平上进行的,观察和分析是在眼睛水平上进行的。然而,设计随机对照试验设计时没有考虑来自一个孩子的两只眼睛之间的簇内相关性。这将导致统计能力低于预期的0.8,因为集群随机对照试验比随机对照试验需要更大的样本量才能达到相同的统计能力。

综上所述,这是首个验证人工智能系统在眼科临床诊断准确性和有效性的临床随机对照试验。与眼科人类医师相比,CC-Cruiser在诊断儿童白内障和做出治疗决策时表现出较低的准确性,但在当前状态下有能力协助人类医生进行临床实践。我们需要临床对照试验进行进一步研究,以更好地评估医学AI的真实诊断性能。雷锋网雷锋网

本文的补充数据可在https://doi.org/10.1016/j.eclinm.2019.03.001找到。

雷锋网原创文章,未经授权禁止转载。详情见转载须知

中国团队完成医疗 AI 多中心临床验证,成果入选《柳叶刀》子刊封面

(完)