人体血红蛋白高光谱显微图像分类研究

(整期优先)网络出版时间:2023-07-03
/ 2

人体血红蛋白高光谱显微图像分类研究

马晨阳,董碧瑶,李泓霖

山东协和学院 山东济南250109

摘要:血红蛋白细胞显微图像分割是显微图像分析的关键步骤,良好的血红蛋白细胞显微图像分割结果可以提高目标检测、信息分析等后续显微图像处理任务的准确度,帮助专家进行更精确的分析。以往血红蛋白细胞图像分割工作以人工为主,这不仅浪费人力物力,同时专家的专业程度以及疲劳程度也会影响识别的准确度,无法稳定地提供高质量的分割结果。同时,血红蛋白细胞显微图像有着血红蛋白细胞尺寸变化大、血红蛋白细胞形状不规则、血红蛋白细胞边界不明显及噪点较强等特点,这些特点进一步提高了人工识别的难度。因此,对血红蛋白细胞显微图像分割工作进行自动化处理具有非常重要的意义。

关键词:深度学习、血红蛋白细胞显微图像分割、非局部模块、语义分割

医疗图像分析在医疗领域有着举足轻重的作用。随着国内外医疗技术的进步,医疗图像分析已广泛应用于病菌研究、病理研究等领域。研究表明,全世界医疗图像的数据量能够达到世界信息总量的1/5以上,这足以看出医疗图像的重要性。血红蛋白细胞图像分割作为显微血红蛋白细胞分析的重要组成部分,对医学领域具有重大意义。

血红蛋白细胞图像分割是一种将血红蛋白细胞图像前景与背景分离的技术,这种技术需要对图像的每一个像素进行分类,使用传统的人工标注方法虽然能够获得高质量的分割结果,但是十分耗费人力物力和时间。从表1-1可以看出,用AI算法辅助进行自动化血红蛋白细胞图像分割具有非常重要的意义。

当前,显微血红蛋白细胞图像的自动化分析手段通常分为传统方式和基于深度学习的方式两类。

传统方式一般基于数学、物理手段,如基于阙值的分割方法、基于图论的分割方法等。这种方法通常由研究者从数据集中收集一些数据的浅层特征,包括纹理信息、灰度信息、角度信息、对比度信息和形状信息等等,并针对特定数据集进行单独设计。但上述浅层特征容易受地点,时间,设备等因素的影响,因此基于传统方法的模型通常在某些特定的数据集上表现良好,但泛用性较差。

一、血红蛋白血红蛋白细胞数据集发展介绍

为了评价模型的效果,本文将提出的模型在ISBI血红蛋白细胞图像分割挑战赛中的三个数据集上进行验证。这些数据集分别是平板玻璃上的HeLa血红蛋白细胞数据集,在聚苯乙烯基质上的胰腺干血红蛋白细胞数据集,,以及聚丙烯酰胺基质上的大鼠间充质干血红蛋白细胞数据集。

该数据集包含共202张干血红蛋白细胞图像。采用相同的逻辑,按照训练集(45%) 、验证集(10%)、测试集(45%)进行划分。同样,前50%和后50%是在两个时间段分别拍摄的,通过这种分组判断模型的泛用性。该数据集中每张图片的分辨率为720* 576像素。

该数据集中共有96张干血红蛋白细胞图像,前48张和后48张为两个时间段拍摄,同样使用和前面一样的比例获得45%训练集图像,10%验证集图像和45%测试集图像。该数据集中的数据分辨率为1200* 782像素。图4-3展示了该数据集中的两个示例,可以看到前后两个阶段拍摄的图像在清晰度和噪点方面都有明显的区别。

由于血红蛋白细胞显微图像的获取难度极高,因此数据集中的样本往往很少,比Fluo-C2DL-MSC数据集的样本数量甚至不到100张。然而,深度神经网络如果不能有充足的数据进行训练,将无法获得良好的泛化能力,因此本文对这三个数据集进行了数据增强操作。其中,对Hela血红蛋白细胞数据集,分别进行随机裁剪、随机水平翻转、随机垂直翻转、随机角度旋转以及弹性形变操作,其展示了进行数据增强的例子。而在另外两个数据集中,由于干血红蛋白细胞的形变并没有Hela血红蛋白细胞那么明显,如果使用弹性形变操作会导致图片的分布出现变化,使得模型在测试集无法获得良好的表现。因此,在另外两种干血红蛋白细胞数据集中,本文仅仅使用随机旋转、随机水平/垂直翻转以及随机裁剪的方式增加样本的数量。与此同时,为了降低网络训练时对于显存的要求,本文在三个数据集中将图像随机裁剪为256* 256像素的图片。此外,在一些血红蛋白细胞显微图像数据集中,数据存在严重的类别不平衡现象,尤其在裁剪之后可能会有很多几乎没有正样本的图片,这些图片会影响模型的训练,甚至让模型的表现劣化,为此本文删除了这部分数据。

二、血红蛋白血红蛋白细胞实验网络参数设计

网络的超参数在训练过程中具有十分重要的作用,直接影响了模型的最终表现。接下来,本文会介绍 BNUNet中所有超参数的设置。首先,在训练时网络采用的批量尺寸( batch size)为8,因为样本数量过少,即使进行了数据增强也仅仅有1000多个训练数据,为了在一个epoch中能平衡训练的时间和迭代数,本文采用这个值作为最终的选择。其次,epoch数可以直接影响模型的训练效果,在本实验中,所有模型统一进行40个epoch 的训练,最终比较结果。之后,学习率关系着模型的收敛速度,如果过小会导致收敛速度缓慢,太大会导致网络错过全局最优点,因此学习率在深度学习中也有着至关重要的作用,在本文中模型的学习率设定为0.0001。而对于优化算法,本文采用Adam优化器[47,这是因为Adam结合了动量和RMSProp的优点,并且在工业界和学术界也证明了它的有效性。对于边界增强交叉嫡损失函数的超参数y和o分别被设定为10和15。对于特征图扰动层的扰动参数剧的初始值设置为特征图扰动层的输入f'(x)。

为了评价BNUNet与其他模型的效果,本文采用平均交并比( meanIntersection over Union,mloU) ,Dice指标、precise指标以及recall 指标作为评价标准。这些都是在图像分割领域常用的指标,可以很好地评价模型的预测能力。

三、基于非局部模块的血红蛋白细胞显微图像分割模型

血红蛋白细胞显微图像分割任务不需要深度很深的网络。由于血红蛋白细胞显微图像的获取十分困难,通常只能从医院和研究所获取。因此,很多相关数据集的样本数据量不到100张。在这种情况下,较深的网络容易出现过拟合现象,因此模型的深度不需要很深。

在图像分割领域,编码器可以基本视作卷积层和下采样层的集合,而解码器也基本可以视作卷积层和上采样层的集合。实际上,深度学习中编码器并非一定要使用下采样操作,也可以使用空洞卷积l37]等一系列方法保留数据的空间信息和尺寸,但是使用下采样操作比较符合图像分割的应用场景。首先,图像分割是对图像的每一个像素点进行分类,而当今的图像分辨率通常都非常高,有着上万甚至数十万的像素点,网络要对其进行分割势必需要消耗大量的显存,并且还会伴随着大量的浮点数计算,这些都会严重影响模型的训练效率。在这样的场景下,神经网络使用下采样操作可以降低输入样本图片的尺寸,从而减小显存的占用,降低运行过程中的计算量。

参考文献:

[1]刘博,黄剑华,唐降龙,等.结合全局概率密度差异与局部灰度拟合的超声图像分割[J].自动化学报,2010(7): 951-959.

[2]田利平.基于图论的血红蛋白细胞图像分割算法研究[J.信息记录材料,2018,8.[27]崔宝侠,田佳,段勇,等.基于图论分割的肺部CT图像的三维重建[J.沈阳工业大学学报,2015,37(6):667-672.

[3]许艳.显微图像阈值分割算法的研究[J.应用光学, 2010,(05):73-75.[17]胡树煜.医学图像中粘连血红蛋白细胞分割方法研究[J.计算机仿真,2012,(02):270-272+282.

[4]刘慧,张彩明,邓凯,等.改进局部自适应的快速FCM肺结节分割方法[J].计算机辅助设计与图形学学报,2014,26(10):17271736.