利用成像流式细胞术和深度学习实现自动化基因毒性分析
保罗·里斯,斯旺西大学
基因毒性检测用于评估化学制剂(如药物)对遗传物质(DNA和RNA)的损伤,通常用于测试候选药物的安全性。在过去,训练有素的实验室技术人员手动进行分析,使用显微镜检查数千个单个细胞,以确定DNA损伤的生物标记:细胞分裂时微核(MN)的形成(图1)。除了劳动密集型和耗时,这种方法依赖于每个技术人员的主观判断。
我在斯旺西大学的研究小组开发了一种基于深度学习和成像流式细胞术(IFC)的基因毒性自动化方法和类似研究。我的合作者George Johnson博士的实验室使用IFC从单个细胞中收集多通道图像数据。我们使用深度学习网络DeepFlow,这是一种为IFC[1]优化使用的深度学习网络,它使我们能够准确和自动地将图像分类为单核、单核带MN、两个核或两个核带MN(图2)。
这种方法消除了手工方法的主观性,并使世界各地的实验室都能以一致的结果进行分析。因为我们在MATLAB中实现了DeepFlow®有了深度学习工具箱™,我们可以将代码发送到任何与我们合作的实验室,并知道它将可靠地运行。许多研究人员已经熟悉MATLAB,这意味着他们可以很容易地修改或改进代码,并根据他们特定的实验设置定制DeepFlow。
建筑DeepFlow
我们最初使用Keras TensorFlow™实现了DeepFlow,但决定在MATLAB中重新实现它,这样DeepFlow就可以在世界上几乎任何实验室中使用。我们希望我们的软件能够在任何特定实验室使用的流式细胞仪中正常工作。我们不想担心依赖关系,我们想要一个易于理解和修改的深度学习网络。
我们没有对Keras代码进行逐行转换,而是使用深度网络设计器(Deep Network Designer)应用程序来构建、可视化和训练DeepFlow网络。随着Keras代码在屏幕的一侧,Deep Network Designer应用程序在另一侧,我们简单地复制了初始实现的体系结构(图3)。
我们使用深度学习工具箱中的网络分析器来检查网络及其层中的错误(图4)。例如,我们从一个为200x200像素的图像设计的网络开始,并将其缩小以处理我们从IFC获得的64x64像素的图像,使用网络分析器来验证网络中每个卷积层的图像大小。我们的合作者在使用Deep network Designer应用程序对网络进行更改时也会使用网络分析器。
在基因毒性分析中使用DeepFlow
在我们的实验装置中,我们使用的是能够在几分钟内处理10000个细胞的IFC。我们捕获了亮场图像以及细胞核和微核的荧光图像,用一种使DNA更加可见的溶液进行染色(图5)。
我们将IFC数据作为MATLAB数据存储引入MATLAB。我们用传统的图像处理技术对其进行预处理,根据其强度对每张图像进行重新规格化,并确保每张图像都是聚焦的,细胞完全在帧中。例如,我们使用边缘检测来识别干净的边缘(这表明图像处于聚焦状态)和完全平坦的边缘(这表明相机没有捕捉到整个单元格)。
我们用2000多张人工分类的图片训练DeepFlow CNN。一旦我们从IFC获得一组标准化的干净数据,我们使用训练过的网络对图像进行分类,将其分为有单核、双核、三核或四核细胞(含或不含MN)。最后,使用一个完善的公式,计算每一类细胞的百分比,我们可以评估用于治疗细胞的药剂的毒性。
我们发现,DeepFlow网络中最后一个分类层的上一层对于理解经过训练的CNN是如何工作的特别有价值。为了解析嵌入在该层中的信息,我们使用MATLAB应用t-分布式随机邻居嵌入(tSNE)算法用于可视化高维数据(图6)。这些可视化可以揭示图像数据中的细微差别,这些细微差别在人工检查中几乎察觉不到。例如,具有微核的双核细胞和单核细胞之间的关系表明,大小决定了正常细胞核和微核之间的区别。
将DeepFlow原理应用于弱监督学习的血液质量评估
除了遗传毒性研究,我们还在各种分析和分类应用中使用了深度学习。例如,最近,我和我的同事使用CNN和弱监督学习来研究红细胞(rbc)随时间的降解[2]。储存用于输血的血液中的红细胞会形成储存病变,观察细胞形态的变化,通常用显微镜进行人工评估。手工评估非常耗时,我们注意到不同的专家通常会给出不同的分数。
在RBC研究的第一部分,我们继续进行基因毒性研究,用人工标记属于几种可能形态之一的图像训练CNN,或表型(图7)。经过训练的网络在形态学分类方面与专家达成了超过76%的一致,这与专家之间看到的约79%的一致相当。
在研究的第二部分,我们消除了主观的人类标记,并训练了一个弱监督神经网络ResNet50,只使用了血液储存的时间。当我们将基因毒性研究中使用的基于tsne的技术的结果可视化时,我们发现网络已经学会了提取单细胞特征,揭示了形态变化的时间进展(图8)。我们意识到,这种进展可以用来预测血液质量和储存的血液的过期日期,而无需人工注释,减少血液浪费,并有助于确保不合适的血液不被用于输血。
DeepFlow计划
我们的团队目前正在评估几个将IFC和深度学习与MATLAB相结合的潜在研究项目。其中一个项目建立在基因毒性研究的基础上,但侧重于评估接受化疗[3]的患者的白细胞反应。第二项是将DeepFlow扩展到幻灯片扫描分析,这可能使公司能够重新分析大量的幻灯片扫描数据。我们还在为DeepFlow开发图形界面,我们将把它与网络打包为一个单独的应用程序。
2020年出版的
参考文献
-
[1]欧伦伯格,Köhler, N.;et al。"利用深度学习重建细胞周期和疾病进展"自然通讯8,463(2017)。doi:10.1038 / s41467 - 017 - 00623 - 3
-
[2]多安,M.,塞巴斯蒂安,J.A.等人。“通过深度学习客观评估储存的血液质量。”美国国家科学院院刊2020年9月,117(35)21381-21390。doi:10.1073 / pnas.2001227117
-
[3] Doan, M., Case, M., Masic, D., Hennig, H., McQuin, C., Caicedo, J., Singh, S., Goodman, A., Wolkenhauer, O., Summers, h.d., Jamieson, D., van Delft, f.w., Filby, A., Carpenter, A.E, Rees, P.和Irving, J.(2020)。“计算机视觉无标签白血病监测。”血细胞计数, 97: 407 - 414。doi:10.1002 / cyto.a.23987