谷歌乳腺癌检测AI比医生更好?技术进步还没那么快

图:谷歌的健康部门团队、DeepMind部门和伦敦帝国理工学院使用了三个不同的深度学习神经网络,从上到下分别是Facebook AI的“RetinaNet”与谷歌的“MobileNetV2”结合体,中间部分是ResNet-v2-50,最后底层的ResNet-v1-50。每个神经网络都以不同的方式挑选出乳房X光照片中看起来可疑的区域,然后对发现进行汇总,以得出关于癌症或非癌症的概率决定

谷歌旗下健康部门Google Health、AI部门DeepMind联手伦敦帝国理工学院的研究人员日前在《自然》(Nature)杂志上撰文,描述了三个深度学习网络如何在某些情况下通过阅读乳房X光照片诊断癌症方面胜过人类放射科医生。但相关细则显示,这项技术还没有达到完全取代放射科医生的水平。

如果你得到“相当正确”的评价,也就是说正确多于错误,结果可能并不太令人满意。但如果你是个人工智能(AI)算法,你会为此得到很多赞誉。毕竟,AI程序不一定要给出明确的答案,只需要给出概率答案,或正确答案的可能性(百分比),无论是执行自然语言翻译还是诊断癌症任务。

AI取得概率成就的最新例子出现在本周的《自然》杂志上,题为“乳腺癌筛查AI系统的国际评估”,由来自谷歌健康部门、DeepMind和伦敦帝国理工学院的31名学者撰写,作者包括斯科特·迈耶·麦金尼(Scott Mayer McKinney)、马尔辛·西尼克(Marcin T.Sieniek)、瓦伦·戈德布尔(Varun Godbole)和乔纳森·戈德温(Jonathan Godwin)以及DeepMind首席执行官戴米斯·哈萨比斯(Demis Hassabis)等。

头条新闻是,谷歌的科学在事后数年的乳房x光检查中战胜了英国和美国的放射学家,并宣布是否存在癌症的诊断,表明“假阳性和假阴性的误报大幅减少。”这种AI技术甚至击败了一个由6名人类放射科医生组成的团队,他们受托执行这项任务,查看了500张乳房X光照片,并给出了诊断结果。

结果对AI工具发展方面做出了重要贡献,这可能对医生也非常有用。但这并不意味着它可以取代人类医生的诊断。仔细观察数据很重要,因为里面暗藏着许多鲜为人知的东西。

我们首先看下研究背景:科学家们从英国三家不同的医院收集了2012年至2015年间接受乳腺癌筛查的女性数据,这些女性符合某些标准,如年龄和检查,总共有13918名女性数据。这就是研究人员用来训练神经网络系统的东西。一旦系统经过培训,另有2.6万名女性数据被用于测试该系统。研究人员还对一家美国医院收集的数据进行了同样的处理,即西北纪念医院从2001年到2018年收集的数据,只是样本数量要小得多。

科学家们训练了巧妙的三种不同神经网络,每个神经网络都以不同的细节水平观察乳房X光照片。深度学习的这种设置细节令人着迷,也许代表了结合机器学习网络的最先进水平。其中一种神经网络是ResNet V-150,到目前为止是一种经典的图像识别方法,由何凯明博士及其微软同事在2015年开发。

第二个神经网络是RetinaNet,由Facebook AI研究学者于2017年开发。第三个是谷歌科学家去年发布的MobileNet V2神经网络。这是一个非常棒的混合方法,展示了代码共享和开放的科学出版物如何丰富每个网络的工作。详细信息包含在《自然》杂志主要论文底部的补充材料论文中。

现在,棘手的部分来了:经过训练的网络所判断的病例中,是否有乳腺癌病例经随后的活组织检查证实为“基本事实”。换句话说,诊断不仅仅是图像上的东西是什么样子的,还包括随后的医学测试通过明确地提取一块癌变组织而得出的结论。在这种情况下,对于癌症的存在,答案是明确的是或不是。

但上面描述的三个深度学习神经网络的完美结合,并不能给出是或不是的明确答案。它只会产生一个从0到1的分数作为一个“连续值”,而不是二元式的“非此即彼”判断。换句话说,AI诊断可能是绝对精确的,也可能是完全错误的,这取决于在任何给定的情况下,它离正确的值有多近或多远,是0还是1。

为了将概率分数与人类在做出判断时所做的事情相匹配,麦金尼和他的同事们不得不将AI的概率分数转换为二进制值。他们是通过一套单独的验证测试来挑选单个答案来做到这一点的。将“优越性”与人类判断进行比较,是AI在其产生的更广泛总答案集中精选出相对准确答案的方式。

正如作者解释的那样:“AI系统天生就会产生一个连续的分数,代表癌症存在的可能性,因此,为了支持与人类医生的预测进行比较,我们对这个分数进行了阈值划分,以产生类似的二元筛查决定,在这种情况下,阈值意味着选择一个单一的点进行比较。对于每个临床基准,我们使用验证集来选择一个不同的操作点,这相当于一个将正面和负面决策分开的分数阈值。”

与英国的数据相比,AI在预测某种东西是否是癌症方面几乎和人类一样好。正如报告中所说,这个术语是“非劣质的”,意思是它并不比人类的判断力差。AI网络做得明显更好的领域是所谓的“特异性”,这是一个统计学术语,意思是神经网络在避免假阳性方面做得更好。也就是说,在不存在的情况下预测疾病。这当然很重要,因为被误诊为癌症对女性来说意味着太多的压力和焦虑。

不过,值得注意的是,在这种情况下,人类得分来自医生,他们必须判断是否需要根据乳房X光检查进行进一步的检查,如活检。可以想象,在诊断的早期阶段,医生可能会做出过于宽泛的评估,以便推动患者进行进一步的测试,以避免发生未发现癌症的风险。这是医生决定病人下一步去哪里和机器猜测几年后结果的可能性之间的根本区别。

换句话说,坐在患者面前的医生通常不会试图猜测未来几年的结果概率,而是试图确定患者下一步要采取的关键步骤是什么?例如,即使AI在特定情况下根据乳房X光检查确定癌症的可能性很低,患者仍会希望他们的医生犯了错误,并开出活检处方,以确保安全而不留下遗憾。他们很可能会欣赏这种谨慎。

科学家们在总结部分写道,尽管AI发现了医生漏掉的病例,但也有好几个医生诊断的患癌病例被AI忽略。这在额外的“读数研究”中尤其明显,在这项研究中,6名人类放射科医生观察了500例癌症筛查。研究人员发现了“所有六位放射科医生都漏掉的癌症样本,但被AI系统正确识别出来”,而“六位放射科医生都发现了的癌症样本,却被AI系统漏掉了。”

有些令人不安的是,作者写道,目前还不完全清楚AI在每一种情况下成功或失败的原因。他们称:“尽管我们无法在这些情况下确定明确的模式,但这种边缘情况的存在表明,AI系统和人类医生在得出准确结论方面可能起到互补作用。”

可以肯定的是,人们想知道更多关于这三个深度学习神经网络是如何进行概率猜测的。比如说,它们看到了什么?这个问题,即神经网络代表什么的问题,没有在研究中得到解决,但对于AI在如此敏感的应用中来说,这是一个至关重要的问题。

综上所述,我们面临的一个大问题是:对于一个能够比许多必须进行初步评估的医生更准确地预测未来癌症发展概率的系统,我们应该付出多大的努力去开发?如果这些概率分数能够帮助医生在某些“边缘案例”中做出决定,那么,帮助医生使用AI的价值将是非常高的,即使在这一点上AI并不能真正取代医生。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注