白内障是指晶状体透明度降低或颜色改变的一种退行性病变
[1]。随着中国老龄化进程加速,其患病率逐年攀升,我国因白内障致盲人数位居世界首位
[2]。白内障超声乳化是其最有效的治疗方法。机器人手术的迅速发展,使得医生可以远离手术台进行手术。手术器械的语义分割是机器人辅助手术稳定合理操作的关键环节
[3],精确定位手术器械并正确估计手术器械姿态,可以更好地帮助医生评估手术器械与人体组织的相互作用。此外,手术器械语义分割还有手术器械包装检查
[4]、实时手术提醒、手术技能客观评估、手术报告生成、手术工作流程优化等诸多应用前景
[5]。白内障手术器械的语义分割也因此受到越来越多学者的关注。
目前,手术器械分割依然面临一些难题,比如手术器械种类多样,手术过程中器械的运动和姿态的改变均会造成手术器械影像尺度、形状发生较大变化;白内障手术在较强光照条件下进行,导致手术器械产生镜面反射,影响手术器械颜色、纹理等视觉表现,阻碍手术器械的稳定识别,如
图1所示。
图1 镜面反射对手术器械视觉特征的影响Fig.1 The effect of specular reflection on the visual characteristics of surgical instruments |
对大规模数据的依赖阻碍了视觉Transformer(vision Transformer,ViT)
[6]在数据集较小的医学图像处理领域的广泛应用
[7]。因此,常使用卷积神经网络实现对白内障手术器械的分割,例如DenseNet
[8]、DeepLabV3+
[9]、Unet
[10]等经典网络。
Ni等
[11]构建了第一个用于语义分割的白内障手术器械数据集,将Unet作为基线模型,在跳跃连接部分采用了增强注意力模块,有效地融合多层次特征,解决了白内障手术过程中器械影像尺度变化问题。为了应对强烈光照引起的镜面反射问题,Ni等
[12]继而提出一种金字塔注意聚集网络。双注意力模块通过捕获全局上下文关系,有效地区分目标区域,帮助解决镜面反射问题,并且提出的金字塔上采样模块学习手术器械在不同感受野的形状和大小特征,解决了手术器械影像尺度变化问题。Ni等
[13]后续又提出一种具有自适应接受域的双线性注意网络用于白内障手术器械分割,双线性注意模块捕获全局上下文和二阶统计数据来改进特征表示,自适应接受域选择具有特定大小的特征图来选择合适的感受域,可以较好地提升网络性能。
Ghamsarian等
[14]提出AdaptNet网络,加入了级联池化融合(CPF)和形状自适应特征融合(SSF)模块,显著地提高了网络的分割性能。Ghamsarian等
[15]针对白内障手术中精准分割不同相关结构的问题设计了金字塔视图融合模块和可变形金字塔接受模块,可以较好地捕获卷积特征图中每个像素位置周围区域的全局视图,可形变的接受域也能更好地适应感兴趣对象的几何变化,能够克服白内障手术器械分割中运动模糊、反射变形等问题。
如何克服镜面反射以及应对白内障手术器械影像尺度变化,是白内障手术器械分割任务面对的主要挑战。这两大主要挑战导致现有的模型难以有效地提取手术器械的特征,难以对白内障手术器械实现精细化分割。过去的研究工作大多基于U型网络结构,围绕如何更有效地进行特征提取与特征融合展开,却忽略了U型网络结构本身的限制,也没有考虑到临床中手术器械大多呈现为有规则的条状或棒状物品。现有的分割网络在分割时都能将目标主体大致分割出来,造成误差的地方主要集中在目标与背景边界的识别。因此,在进行模型构建时,除了需要围绕如何更好地提取与融合手术器械的有效特征外,对手术器械边缘特征的提取与融合也同样重要。
受到前述研究的启发,本文提出了一种增强边缘特征的双注意力网络EE-DANet(dual attention network based on enhanced edge features)。本文的主要工作包含以下3个部分。
1)手术器械分割中手术器械形状各异,即使是相同手术器械也存在不同姿态。针对此问题,在解码器端改进了一种多尺度特征融合模块(multi-scale feature fusion module,MFFM)。使用不同大小卷积核的条形卷积,既能高效地捕获图像多尺度信息,同时能够减少网络参数。
2)针对白内障手术过程中存在强烈光照导致分割过程中手术器械存在严重镜面反射问题,本文增强了解码器的特征提取与融合能力。在特征融合模块(feature fusion module,FFM)中不仅使用可形变卷积,还提出一种条形坐标注意力(strip coordinate attention,SCA),对图像进行全局建模,建立长距离依赖,更好地捕获条状物体。
3)针对U型网络分割图像边界模糊以及细节特征丢失的问题,在网络中加入边缘分支弥补网络下采样丢失的空间信息,促进语义信息与边缘信息融合。边缘分支设计了一种增强空间注意力(augmented spatial attention,ASA),能够更好地平衡不同层次特征中边缘信息与语义信息。