利用人工智能,癌症研究人员已经训练了一个计算机程序来读取组织样本的幻灯片,并准确识别两种最常见的肺癌。
人工智能驱动的计算机程序通过创建数千个瓷砖的地图来分析组织。右边的地图显示鳞状细胞癌(红色)、肺鳞状细胞癌(蓝色)和正常肺组织(灰色)。
学分:纽约大学医学院
的研究人员训练了一个计算机程序来读取组织样本的切片,以97%的准确率诊断两种最常见的肺癌。该程序还学习了通过分析癌组织的图像来检测样本中与癌症相关的基因突变。
在一个被称为机器学习的过程中,计算机程序扫描组织切片的图像,并发展了将正常肺组织与两种最常见的肺癌区别开来的能力,腺癌约占肺癌的40%,鳞状细胞癌约占肺癌的25%-30%。即使是有经验的病理学家也很难区分这两种肺癌,它们来自不同类型的细胞,需要非常不同的治疗方案。
来训练计算机程序,专门研究机器学习的研究人员使用了谷歌最初开发和发表的一种深度学习方法。这个程序使用人工智能(AI)来教自己更好地完成这个任务,对肺癌标本进行分类,而不知道具体的分类方式。
这个程序使用了1600多张由癌症基因组图谱(TCGA)公开提供的肺标本组织病理学切片进行训练。这项研究由纽约大学朗格医学中心的研究人员领导,于9月17日发表在《自然医学》杂志上,代表着肺癌诊断的计算方法的准确性有了很大的提高;第二种最精确的计算方法有83%的准确率。
图像作为数据,公共资源
TCGA使肿瘤标本的组织病理学图像可作为研究项目中收集的遗传序列数据的研究人员的质量控制措施。NCI的TCGA主任Jean C.Zenklusen博士说,这些图像“是为了确保组织的质量和特性是正确的。”。Zenklusen博士说,作为一个附带的好处,图像本身现在可以作为分析的资源。
TCGA提供的图像很大,分辨率也很高,因此纽约大学的研究人员将每张图像分成了数千块,或者说“补丁”,“在一个网格中,计算机程序可以单独分析与样本分类相关的视觉线索。“我们每个(肺癌)亚型大约有500名患者,但每个图像上有数千个补丁,因此我们最终有近100万个补丁来训练模型,”纽约大学朗光分校的机器学习和人工智能研究员Narges Razavine博士说,他帮助领导了这项研究。
这个程序在区分腺癌和鳞状细胞癌以及正常肺细胞方面的准确性与有经验的病理学家差不多,但是分析速度可以快得多;该程序能够在几秒钟而不是病理学家需要的几分钟内得出结论。
该程序还对54幅图像中的45幅进行了正确分类,参与研究的三位病理学家中至少有一位对这些图像进行了错误分类,这表明人工智能可以提供有用的第二种意见,研究人员写道:
这个程序是在一组独立的肺癌标本上进行测试的,这些标本都是从纽约大学冷冻的和刚采集的,以验证它是在一个完全独立的标本收集上工作的。
来自TCGA的标本几乎完全是肿瘤组织。然而,在这个验证集合中,样本通常包括其他成分,如血块和死亡组织,研究人员报告说,这使得分类任务对程序来说更具挑战性,他们对程序进行了重新设计,使其集中于组织样本中大部分是肿瘤的部分(通过