Welcome to visit Journal of Shaanxi Normal University(Natural Science Edition)!

SABM: an enhanced SAM model for segmenting any butterflies in the ecological images

  • XIE Juanying , 1, * ,
  • LAN Xiang 1 ,
  • XU Shengquan 2
Expand
  • 1 School of Artificial Intelligence and Computer Science, Shaanxi Normal University,Xi’an 710119, Shaanxi, China
  • 2 School of Life Sciences, Shaanxi Normal University, Xi’an 710119, Shaanxi, China

Received date: 2025-01-31

  Online published: 2025-12-17

Abstract

Segmenting the butterflies from ecological images will provide accurate butterfly masks, guaranteeing the accuracy of the automatic butterfly species identification using the ecological images of butterflies. Therefore, the segmentation study of butterfly ecological images is of great significance. However, existing butterfly ecological image dataset cannot train an excellent butterfly segmentation model with strong generalization due to the small number of samples in the dataset and the mimicries and wing folds of butterflies in the butterfly ecological images. To address these issues, a new enhanced SAM (segment anything model) with good and robust segmentation capability is proposed. This enhanced SAM is named as SABM (segment any butterfly model) for segmenting the butterfly ecological images. This SABM introduces two-way convolution module, butterfly token, and a 3-layer MLP (multi-layer perceptron) to enhance SAM to adapt to the ecological butterfly image segmentation task. The 2-fold cross validation experimental results on the available butterfly ecological image dataset containing 707 ecological butterfly images demonstrate that this proposed SABM obtains an excellent segmentation performance for the ecological butterfly images. It is superior to SAM and its variants, particularly the SOTA model of SAM variants. Additionally, the segmentation experiments on the entirely new 7 645 butterfly ecological images show that this SABM has strong generalization capability, and it can segment all these 7 645 ecological butterfly images efficiently. This segmentation results provide a 10 times larger dataset than the available one for future butterfly segmentation task utilizing the ecological images while providing a much better dataset for the automatic butterfly species identification task through ecological images of butterflies, and a very challenging dataset for testing the performance of a clustering algorithm. Furthermore, the robust of the proposed SABM is tested on medical image datasets.

Cite this article

XIE Juanying , LAN Xiang , XU Shengquan . SABM: an enhanced SAM model for segmenting any butterflies in the ecological images[J]. Journal of Shaanxi Normal University(Natural Science Edition), 2025 , 53(6) : 1 -14 . DOI: 10.15983/j.cnki.jsnu.2025014

蝴蝶是节肢动物门、昆虫纲、鳞翅目、锤角亚目动物的统称,在全世界分布广泛,约有18 000多种[1]。蝴蝶对栖息地环境专一性强,蝴蝶的种群动态和群落结构特征能够反映环境的细微变化[2],因此蝴蝶是重要的环境指示昆虫,对指示生态系统平衡具有重要意义。党的二十大报告中指出“要推动美丽中国建设,提升生态系统多样性、稳定性、持续性,加快实施重要生态系统保护和修复重大工程”,因此识别自然环境中的蝴蝶种类成为当前一项重要任务。然而,为了识别自然环境中的蝴蝶,通常需要从野外环境中采集蝴蝶,制作成标本,然后昆虫学家再利用长期积累的专业知识和经验对蝴蝶进行种类鉴别,该过程费时费力。随着深度学习的发展,涌现出一系列基于野外环境下拍摄的蝴蝶生态图像的蝴蝶物种自动识别研究[3-10]。然而,蝴蝶为了躲避天敌而与生俱来的拟态性使蝴蝶具有与周围环境非常相似的颜色、纹理以及图案,因此,蝴蝶生态图像中的蝴蝶与背景相似度极高,使基于含有环境背景的蝴蝶生态图像的蝴蝶自动化识别准确率远低于采用剔除了大部分环境背景的蝴蝶生态图像的蝴蝶物种自动化识别准确率[3]。为了提高基于生态图像的蝴蝶自动化识别准确率,减少蝴蝶生态图像中复杂环境背景对深度学习网络学习获取的蝴蝶特征的影响,蝴蝶生态图像分割亟待研究。
谢娟英等[11]发布的蝴蝶数据集为蝴蝶生态图像分割提供了支持,其中的蝴蝶图像来自2018年的中国数据挖掘竞赛[12]训练集,是目前唯一可用于分割的全部由蝴蝶生态图像组成的公开蝴蝶生态图像数据集,本文将其命名为Butterfly_2018。Sun等[13]指出,更大的网络模型和更多带有标签的数据是深度学习在计算机视觉领域获取成功的关键。Butterfly_2018仅含有721个样本,样本容量较小,难以直接训练出具有强大泛化能力的模型。Kirillov等[14]提出分割一切的大模型SAM(segment anything model),以其优秀的zero-shot分割能力为蝴蝶生态图像分割提供了基础。然而SAM在特定下游任务中依然存在分割边界不清等问题[15],分割出的图像质量难以令人满意,因此需要根据具体任务对SAM进行微调。然而,SAM参数量巨大,直接训练全部参数的微调方式成本高昂,目前下游任务中对SAM进行微调的主要方式是增加适配器[16-18]。但是,这种方式破坏了SAM原本的完整性,在训练样本不足情况下,可能会降低SAM模型的分割能力。
为了解决SAM在具体下游任务中存在的局限性,使SAM能扩展用于解决生态图像中的蝴蝶分割问题,本文在SAM基础上,提出一种增强SAM 模型SABM(segment any butterfly model),该模型不对SAM插入适配器Adapter,而是将SAM编码器的信息传入双路卷积模块进一步提取特征,将双路卷积模块提取的特征与SAM解码器产生的掩码特征进行融合,得到蝴蝶特征(butterfly feature),然后通过新的蝴蝶词元(butterfly token)和一个3层的MLP(multi-layer perceptron)对蝴蝶特征进行调整,将其上采样,得到最终分割掩码。真实蝴蝶生态图像数据集的实验测试表明,提出的增强分割模型SABM对蝴蝶生态图像的分割能力优于SAM及一系列SAM改良模型,且在较大蝴蝶生态图像数据集具有很强的泛化能力,医学图像分割实验验证了SABM的鲁棒性。

1 相关工作

大模型首先在自然语言处理NLP(natural language processing)领域获得成功。Devlin等[19]基于Transformer构建的具有双向编码器的BERT(bidirectional encoder representations from Transformers),在11个自然语言处理任务上获得了最佳结果。Brown等[20]同样基于Transformer构建了具有1 750亿个参数的GPT-3模型,在许多NLP数据集上取得了出色表现。
Transformer[21]在NLP领域中的出色表现引起诸多研究人员关注。Dosovitskiy等[22]受Transformer启发,提出了应用于计算机视觉领域的ViT(vision Transformer),在大规模数据集训练后取得了出色表现。同样,为了解决Transformer无法直接应用于计算机视觉的困难,Liu等[23]提出了一种分层Transformer结构SWin Transformer(shifted windows Transformer),使用滑动窗口将自注意力计算限制在无重叠的局部区域内,并允许跨区域连接,提高了计算效率。
同Transformer一样,ViT可扩展性好,并且开箱即用[22]。Kirillov等[14]基于ViT构建了首个图像分割大模型SAM。SAM使用超大数据集SA-1B训练,具有十分优秀的zero-shot分割能力,其中SA-1B[14]包含1 100多万张图像,这些图像掩码总数超过10亿。SAM既可以直接对图像进行全景分割,也可以通过点、锚框的提示来分割特定目标。目前,针对SAM的优化工作主要集中在加快SAM推理速度、减少SAM参数量、提高SAM推理能力、为SAM增加适配器以适应特定下游任务。
SAM编码器采用多个ViT架构,计算量巨大。Zhao等[24]提出的FastSAM将SAM的分割任务分解为提示任务和分割任务两部分,使用带有实例分割分支的CNN(convolutional neural network)检测网络完成对图像的分割。在分割能力相近情况下,FastSAM推理速度是SAM的50倍,而且参数量仅为SAM的一半。
Zhang等[25]认为,SAM的编码器和解码器高度耦合,当训练资源有限时会导致SAM的训练效果不佳,因此提出了解耦蒸馏,并由此训练出了新的轻量型编码器,与SAM的解码器与提示编码器共同组成了MobileSAM。MobileSAM编码器参数量减少至SAM编码器参数量的1/60以下,且推理速度为原本的50倍,能够部署在移动端。Xiong等[26]同样利用知识蒸馏方法构建了EfficientSAM,相比于SAM模型,EfficientSAM参数量减少至1/20,运行速度却快了20倍,且推理能力与SAM相近,高于FastSAM和MobileSAM。Shu等[27]提出一种全阶段知识蒸馏方法,并以此提出了TinySAM,在几乎不降低SAM推理性能的情况下,将其推理速度提升了2倍。
通过知识蒸馏方式虽然能够减小模型体积,增加模型推理速度,却无法提升SAM的泛化能力。Ke等[15]指出,在分割目标的结构复杂时,SAM的掩码预测能力不足,因此,提出了HQ-SAM(high quality segment anything model)。HQ-SAM设计了一个高质量词元(high quality token),融合了SAM编码器的第一层和最后一层特征,在增加不超过5%参数情况下,提高了模型泛化能力。
尽管SAM取得了令人瞩目的成功,但在一些专业领域往往表现不佳。为了提高SAM在专业领域的表现,Ma等[28]使用超过100万张医学图像重新训练SAM得到MedSAM,提高了SAM对医学图像的分割能力。然而,对SAM重新训练代价较大,因此Wu等[18]提出了医学SAM适配器模块MSA(medical SAM adapter),使用医学数据集对插入SAM的适配器模块(SAM-adapter)进行训练,以较小的代价实现微调目的。Chen等[17]同样提出了SAM-Adapter,并对适配器和SAM解码器重新训练,提高了SAM在阴影数据集的性能表现。
除了引入适配器,为SAM添加额外的卷积分支同样可以提高SAM在专业领域的表现。Mei等[29]结合了MobileSAM和CNN提出了一种双编码器,并行提取目标特征。Lin等[30]为SAM引入一个并行的卷积网络分支,提出SAMUS(segment anything model for ultrasound image segmentation),将局部特征注入ViT编码器,并在SAM中添加了适配器,提高了模型对超声图像的分割能力。
虽然在SAM插入适配器或引入并行卷积网络分支,能够提高SAM在特定领域的表现,但依然需要大量训练样本。MSA和SAMUS使用超过3万样本的数据集,SAM-Adapter使用的数据集样本数量也超过1万。这是因为适配器破坏了SAM原本的结构,在训练样本较少情况下可能表现不佳。
为了有效分割出蝴蝶生态图像中蝴蝶,本文提出了SAM增强模型SABM,在不破坏SAM原本结构情况下,充分利用SAM提取的图像信息,在训练集样本量不超过354的情况下,有效提升了SABM模型对蝴蝶的分割能力,实现了生态图像中蝴蝶的有效准确分割。

2 本文方法

SABM没有向SAM中插入适配器,通过保证SAM的完整性来确保SAM解码器产生的掩码特征的可靠性,SABM通过将SAM编码器中的ViT信息输入到双路卷积模块中进行特征融合与调整,再将双路卷积模块生成的特征与SAM产生的掩码特征通过加和方式进行特征融合,生成蝴蝶特征,最后通过蝴蝶词元和一个3层MLP对蝴蝶特征进行调整,得到最终的掩码输出。本节在介绍SAM基础上,详细介绍提出的SABM模型。

2.1 原始SAM模型

SAM[14]由3部分组成:图像编码器、提示编码器、掩码解码器。其中,图像编码器由多个ViT组成。提示编码器负责将输入的点、框、文本这些提示信息进行编码后提供给掩码解码器。掩码解码器负责对来自图像编码器的图像编码和来自提示编码器的提示编码进行解码,得到最终的预测掩码。SAM最终预测掩码有3个,对于蝴蝶生态图像,区别在于最终分割结果为是否含有蝴蝶身体部分,如图1所示,从上到下分别为3个得分递减的预测掩码。
图1 SAM架构

Fig.1 SAM architecture

2.2 本文SABM模型

SABM模型没有引入适配器到SAM,因为引入适配器会破坏SAM完整性,导致SAM原本成体系的知识混乱,降低其分割能力。因此,SABM将SAM图像编码器的知识提炼出来,输入设计的双路卷积模块中进一步调整图像特征。SABM模型的结构如图2所示,下方橘色部分为本文创新部分。
图2 SABM架构

注:网络版为彩图。

Fig.2 SABM architecture

图2可见,SABM仅使用了SAM解码器产生的掩码特征,略去了SAM的最终预测掩码,因此图2中没有SAM原本的输出词元(output token)以及通过输出词元生成最终预测掩码的过程。SABM将双路卷积模块调整过的全局和局部通路特征与SAM掩码解码器产生的掩码特征通过加和方式进行特征融合,得到蝴蝶特征。引入3层的MLP对随机生成的1×256维蝴蝶词元进行调整,调整后的蝴蝶词元与蝴蝶特征相乘,得到最终输出的预测掩码。
SABM的双路卷积模块如图3a所示,包含全局路径(global way)和局部路径(local way)两条通路,全局路径由4个基本模块组成,局部路径由8个基本模块组成,基本卷积模块是两个3×3卷积模块组成的残差模块[31],如图3b所示。而SAM的图像编码器中有12个ViT模块,其中4个是全局ViT,利用全局范围内信息计算注意力,其余8个为局部ViT,在局部范围内计算注意力。SABM将SAM全局ViT的信息输入双路卷积模块中的全局通路,将局部ViT的信息输入双路卷积模块中的局部通路,如图3a所示。SAM首层全局ViT特征输入SABM全局通路第一个基本卷积模块,其输出与第二层全局ViT按元素加和方式进行特征融合后,输入下一个基本模块,以此类推,直到第四个全局ViT与全局通路第三个基本卷积块加和送入第四个基本卷积块处理后得到全局通路特征(global feature)。同理,将SAM首层局部ViT特征输入SABM局部通路第一个基本卷积模块,将其输出与SAM第二层局部ViT按元素加和方式进行特征融合后输入到下一个基本模块,其他局部ViT生成的特征按照同样的方式处理,最终得到提出模型SABM的局部通路特征(local feature)。
图3 双路卷积模块架构

注:网络版为彩图。

Fig.3 Two-ways convolution block architecture

得到全局通路特征和局部通路特征后,SABM将全局通路特征、局部通路特征与SAM的掩码特征一起输入特征融合模块(图2下方的特征融合模块),通过加和方式融合,丰富SAM掩码解码器产生的掩码特征的细节信息,得到蝴蝶特征。
最后SABM模型引入一个可训练的蝴蝶词元和一个三层MLP,用来替代SAM原本的输出词元,对刚学习到的蝴蝶特征进行调整,得到最终的预测掩码。图4展示了原始SAM模型和本文提出的SAM增强模型SABM对6张蝴蝶生态图像学习获得的特征图可视化。
图4 SAM和SABM的特征图可视化

注:网络版为彩图。

Fig.4 Visualized feature maps of SAM and SABM

图4所示的本文提出的SAM增强模型SABM与原始SAM模型对6个蝴蝶生态图像样本学习获得的特征图可视化结果显示,本文提出的SABM模型不仅对生态图像中蝴蝶本身投入更多关注,且对原始SAM模型忽视的部分蝴蝶特征也投入了足够关注,学习到的蝴蝶特征集中在蝴蝶本身,且边界清晰。另外,SABM能够抑制对环境的关注,不关注SAM错误关注的环境特征,如第3、5列。相反,原始SAM模型学习到的特征包含部分环境背景,且对图像背景的关注度明显高于SABM模型。

2.3 损失函数

本文提出的SABM模型采用与原始SAM模型相同的损失函数,即式(1)所示的二元交叉熵损失与Dice损失之和。由于Dice指标关注模型分割出的蝴蝶与图像中蝴蝶真实值(ground truth)的交并比,二元交叉熵描述了模型预测结果与真实值间的差异,因此式(1)损失函数使模型在训练中更倾向于获取蝴蝶区域信息。
LSABM=LCE+LDice
式中:LCE是二元交叉熵损失,如式(2)所示;LDice是Dice损失,如式(3)所示。
LCE=- 1 N(yiln( y ^ i)+(1-yi)ln(1- y ^ i)),
LDice=1- 2 i = 1 N y i y ^ i i = 1 N y i + i = 1 N y ^ i
式中:N代表一幅图像的像素总数;yi代表像素标签值; y ^ i代表预测的像素标签值。

3 实验结果与分析

本节将从各方面测试提出的分割模型SABM的性能。首先介绍实验用的蝴蝶数据集及数据扩增方法,然后介绍实验结果评价指标与实验设计,接着比较SABM与对应分割模型的性能,通过消融实验测试SABM各个创新点的贡献,在医学数据集测试SABM模型的鲁棒性,实验验证SABM模型分割结果对蝴蝶物种自动化识别任务的积极影响,最后在Butterfly_2024数据集测试SABM模型的泛化性能。

3.1 实验数据与数据扩增

实验共使用3个数据集,包括2个蝴蝶生态图像分割数据集Butterfly_2018和Butterfly_2023,测试和比较模型分割性能,一个测试模型鲁棒性的结肠息肉分割数据集CVC-300[32]。Butterfly_2018是公开的蝴蝶生态图像分割数据集,来自2018年第三届中国数据挖掘竞赛[12]的训练集,该数据集也是目前唯一的完全由蝴蝶生态图像组成的公开数据集,谢娟英等[11]对该数据集信息以及标蝴蝶注信息进行了详细描述。该数据集共有721个样本,涵盖94类蝴蝶,每类蝴蝶至少有1个样本。去除数据集Butterfly_2018中标注有问题的不合格图像,得到707张蝴蝶生态图像。按照1∶1比例将其分为两份(一份354张图像,一份353张图像),采用2折交叉验证实验测试模型分割能力。
Butterfly_2023是笔者实验室自有的蝴蝶分割数据集,该数据集采用SAM[14]自动分割和人工标注结合的方式获取标签,其中约70%的标签来自SAM自动分割,剩下约30%由于SAM分割效果较差,无法作为分割标签,因此采用人工标注的方式获取分割标签。Butterfly_2023共包含430张蝴蝶生态图像,同样均为野外环境下使用高清单反相机拍摄到的蝴蝶生态图像,共包括86种蝴蝶,每种蝴蝶最少1个样本,最多35个样本,数据统计如图5所示,横坐标代表蝴蝶种类,纵坐标代表某一种类蝴蝶的图像数量。同样按照1∶1比例将其分为两份(每份215张图像),采用2折交叉验证实验测试模型分割能力。
图5 Butterfly_2023样本分布

Fig.5 Sample distribution of Butterfly_2023

CVC-300[32]是西班牙瓦伦西亚理工大学计算机视觉中心发布的一个专门针对结肠镜检查中的息肉检测和分割的数据集。该数据集仅公开了测试集,其中共包含60张来自结肠镜检查的结肠息肉图像,反映了真实临床环境下的结肠内部情况,具有较高的临床应用价值和研究意义。本文对该数据集同样采取2折交叉验证实验,每折样本数为30。
本文没有预先对蝴蝶生态图像进行变换,而是在训练过程中使用大尺度抖动[33]及水平翻转方式进行数据增广。相比于标准尺度变化,尺度变化范围从0.8~1.25增加到0.1~2.0,部分变换结果如图6所示。
图6 大尺度抖动

注:网络版为彩图。

Fig.6 Large scale jittering

3.2 评价指标与实验设置

本文采用图像分割领域常用的5个评价指标Dice(记作cDice)、MDice(记作cMDice)、IoU(intersection over union,记作rIoU)、MIoU(mean intersection over union,记作rMIoU)和豪斯多夫距离HD(Hausdorff distance,记作DH)来评估模型对野外环境下蝴蝶生态图像分割结果的质量。IoU指标为交并比,表示模型对蝴蝶生态图像分割结果与标注掩码的重叠度,计算方式如式(4)所示。
rIoU= T P F N + F P + T P
式中:TP(true positive)代表模型正确识别的蝴蝶像素;FP(false positive)代表模型误判为蝴蝶的背景像素(背景像素被误识为蝴蝶像素);FN(false negative)代表模型误判为背景的蝴蝶像素(即蝴蝶像素被错误识别为背景像素)。
MIoU为平均交并比,代表模型对每一类预测的结果和真实值的交并比求和后再平均的结果,对蝴蝶分割即为蝴蝶IoU指数与背景IoU指数的平均值,该指标体现模型的综合能力,计算方式如式(5)所示。
rMIoU= 1 n + 1 i = 0 n T P F N + F P + T P
式中:TPFPFN与IoU中的相同;n代表除了背景类的目标类别数,对蝴蝶分割任务,n=1。
Dice指标为分割结果与真实值的相交面积占总面积的比值,对蝴蝶分割任务表示模型预测出的蝴蝶与蝴蝶真实掩码的重叠度,计算方式如式(6)所示。
cDice= 2 × T P 2 × T P + F N + F P
式中,TPFPFN含义与式(4)中相同。
MDice为模型对每一类的分割结果与基准真实值的相交面积占总面积的比值求和再平均的结果,即蝴蝶的Dice指数与背景的Dice指数的平均值,体现模型的综合分割能力,计算方式如式(7)所示。
cMDice= 1 n + 1 i = 0 n 2 × T P 2 × T P + F N + F P
式中,TPFPFNn含义与式(5)中TPFPFNn含义相同。
HD为豪斯多夫距离,用来评价两个点集之间的距离,对两张图像AB来说,HD指数可以用来评价AB的相似程度,其值越小说明AB两张图像越相似,计算方式如式(8)所示。
DH(A,B)=max{h(A,B),h(B,A)}。
式中:h(A,B)= m a x a A{ m i n b B{d(a,b)}}表示从AB的距离;h(B,A)= m a x b B{ m i n a A{d(a,b)}}为从BA的距离;max表示最大值;min表示最小值;d(a,b)为ab两点间的欧氏距离。为了减少极端离群点对评价结果的影响,本文采用HD95指标,即DH的第95分位数。
训练过程中,SABM冻结了原始SAM的参数,只训练双路卷积模块、特征融合模块、蝴蝶词元以及MLP模块,降低了训练参数量。SABM使用PyTorch框架实现,实验中将所有输入图像调整为1 024×1 024大小,采用Adam优化器更新网络参数,学习率设定为1×10-3,在第10轮以后学习率下降为1×10-4,批大小设定为4,迭代轮次设置为20,使用单张NVIDIA RTX3090显卡加速训练。

3.3 SABM与其他相应模型对比实验

本节在蝴蝶生态图像分割任务中比较提出的SABM模型与大模型SAM[14], SAM改良模型HQ-SAM[15]、MobileSAM[25]、FastSAM[24]、EfficientSAM[26]、TinySAM[27],及MSA[18]的性能。各模型在Butterfly_2018数据集的2折交叉验证实验的平均分割结果如表1所示,加粗表示最优结果。
表1 不同模型在Butterfly_2018数据集的2折交叉验证实验的分割性能比较

Tab.1 Performance comparison of different segmentation Models’ 2-fold cross validation experiments on Butterfly_2018 Dataset

算法 Dice MDice IoU MIoU HD95
SAM [14] 0.945 7 0.972 1 0.901 0 0.949 1 1.59
HQ-SAM [15] 0.949 4 0.974 0 0.907 1 0.952 3 1.55
MobileSAM [25] 0.942 4 0.970 4 0.895 4 0.946 3 1.70
FastSAM [24] 0.074 4 0.530 3 0.069 1 0.521 3 24.26
EfficientSAM [26] 0.938 2 0.968 3 0.888 5 0.942 7 1.97
TinySAM [27] 0.936 0 0.967 2 0.884 7 0.940 7 1.91
MSA [18] 0.722 4 0.858 0 0.621 1 0.804 3 17.08
SABM(本文) 0.955 4 0.977 1 0.917 8 0.957 8 0.94

注:加粗表示最优。

需要说明的是,除了医学图像分割专用模型MSA和本文的SABM模型是在Butterfly_2018数据集进行2折交叉验证实验训练的模型外,其他对比模型均采用原始模型,直接对Butterfly_2018数据集的2折交叉验证实验测试集图像进行分割。这是由于SAM、HQ-SAM、EfficientSAM、MobileSAM训练所需显卡数量均大于1,训练成本过高,而FastSAM和TinySAM未公开训练代码。
图7给出提出的SABM与对比模型在Butterfly_2018数据集的部分蝴蝶生态图像分割结果可视化,直观展示SABM模型与原始SAM大模型,及SAM改良模型的分割性能差异,其中的掩码(mask)即其准真实值。
图7 不同模型对蝴蝶生态数据集Butterfly_2018的分割结果示例

Fig.7 Several samples of segmentation results of different models on Butterfly_2018 dataset

表1中各模型对Butterfly_2018蝴蝶生态图像进行分割的2折交叉验证实验结果表明,本文的SABM模型在Butterfly_2018数据集上取得了最好的分割效果,Dice指数达到0.955 4,MDice指数达到0.977 1,IoU指数达到0.917 8,MIoU指数达到0.957 8,HD95距离为0.94,其Dice指数比SAM模型高0.009 7,MDice指数比SAM模型高0.005,IoU指数比SAM模型高0.016 8,MIoU指数比SAM模型高0.008 7,HD95指数比SAM降低0.65(HD95越小越好)。
MobileSAM、EfficientSAM、TinySAM都是利用蒸馏训练从SAM中获取知识,因此它们对蝴蝶生态图像分割能力无法超越SAM,其Dice指数、MDice指数、IoU指数和MIoU指数均分别低于原始SAM模型以及本文SABM模型,EfficientSAM、TinySAM和MobileSAM的HD95指数同样高于(不如)SAM和本文SABM模型。
FastSAM并非基于SAM修改,而是一个基于YOLOv8的新CNN网络,并使用SA-1B数据集的1/50进行训练,故对蝴蝶生态图像的分割能力与SAM相差甚远,也远低于本文SABM模型。MSA本质是在SAM编码器以及解码器中插入Adapter,破坏了SAM模型的原本结构,降低了SAM解码器产生的掩码特征的可靠性,因此其IoU指数、MIoU指数、Dice指数、MDice指数以及HD95指数均远不如原始SAM模型以及本文的SABM模型,且性能相差较远。HQ-SAM在Butterfly_2008数据集的各项分割指标优于SAM及其变体,但不如本文提出的SABM模型。
图7中各模型对Butterfly_2018蝴蝶生态图像的分割结果表明,SAM存在将背景环境中的花、叶误判为蝴蝶的情况。MobileSAM、EfficientSAM、TinySAM利用蒸馏训练从SAM中获取知识,因此,它们掌握的知识与SAM相似,在SAM混淆蝴蝶与环境背景的蝴蝶生态图像上,它们也同样表现不佳。FastSAM没有利用SAM的知识,而是利用SA-1B训练集的1/50重新训练,泛化能力最差,几乎将所有蝴蝶像素预测为背景像素。MSA插入的适配器破坏了SAM原本的结构,导致其预测的掩码变得不可靠,虽然能找到蝴蝶大致位置,但是对蝴蝶形态信息损失较多,并且掩码呈现破碎锯齿状。
HQ-SAM存在将蝴蝶分割为背景和将背景分割为蝴蝶的现象,分割能力不及本文提出的SABM模型,但明显优于SAM及其对比模型。
以上分析揭示,相比于原始SAM模型,以及SAM的改良模型EfficientSAM、FastSAM、MobileSAM、TinySAM、HQ-SAM与MSA,本文提出的增强SAM模型SABM弥补了SAM所缺的蝴蝶知识,能够完整分割出生态图像中的蝴蝶,成功区分生态图像中的蝴蝶像素与背景像素,对蝴蝶生态图像有很强的分割能力。
为了进一步验证提出的SABM模型在不同野外环境下蝴蝶生态图像的分割能力,我们在Butterfly_2023数据集测试SABM与SAM以及SAM改良模型的分割性能。实验采用2折交叉验证实验,实验设置与各模型在Butterfly_2018数据集的实验设置完全一致,分割结果如表2所示。
表2 不同模型在Butterfly_2023数据集的2折交叉验证实验的分割性能比较

Tab.2 Performance comparison of different segmentation models’ 2-fold cross validation experiments on Butterfly_2023 dataset

算法 Dice MDice IoU MIoU HD95
SAM [14] 0.970 4 0.984 6 0.963 3 0.980 6 0.43
HQ-SAM [15] 0.978 8 0.988 9 0.968 2 0.983 1 0.33
MobileSAM [25] 0.970 9 0.984 8 0.962 7 0.980 1 0.45
FastSAM [24] 0.000 0 0.483 3 0.000 0 0.468 0
EfficientSAM [26] 0.968 7 0.983 2 0.956 7 0.977 0 0.66
TinySAM [27] 0.966 4 0.982 4 0.951 7 0.974 3 0.73
MSA [18] 0.767 1 0.878 4 0.722 3 0.851 2 6.16
SABM(本文) 0.984 0 0.991 5 0.968 5 0.983 2 0.28

注:加粗表示最优。

表2中各模型对Butterfly_2023蝴蝶生态图像进行分割的2折交叉验证实验结果表明,本文的SABM模型在Butterfly_2023数据集也取得了最好的分割效果,Dice指数达到0.984 0,MDice指数达到0.991 5,IoU指数达到0.968 5,MIoU指数达到0.983 2,HD95距离为0.28。
SAM及其改良模型的分割能力与表1各模型在Butterfly_2018数据集的分割能力基本一致,HQ-SAM分割能力高于SAM模型,低于SABM模型。EfficientSAM和TinySAM模型各项指标均稍逊于SAM模型,而MobileSAM的Dice和MDice指标稍好于SAM模型,但整体相差不大,FastSAM依然为分割能力最差的模型,无法分割出任何蝴蝶,由于其分割结果为空集,故无法计算其HD95指标,因此FastSAM模型的HD95指标为空。MSA模型破坏了SAM原本的网络结构,虽然经过了训练,但其分割能力依然显著低于SAM模型和本文提出的SABM模型。

3.4 消融实验

为了验证SABM的双路卷积模块中全局通路和局部通路的必要性,SABM分别去掉双路卷积模块中全局通路和局部通路,在Butterfly_2018上进行2折交叉验证实验。为了验证特征融合模块融合SAM掩码解码器输出的掩码特征的必要性,SABM去掉掩码特征(mask feature),同样在Butterfly_2018进行2折交叉验证实验。最后SABM还使用一层的3×3卷积替代蝴蝶词元和MLP,同样在Butterfly_2018上进行2折交叉实验,来验证SABM模型中新增蝴蝶词元和MLP的必要性。消融实验结果如表3所示,加粗表示最优结果。
表3 消融实验结果

Tab.3 Ablation experimental results

算法 双路卷积模块 掩码特征 蝴蝶词元+
MLP
指标
局部通路 全局通路 Dice MDice IoU MIoU HD95
SABM 0.952 1 0.975 4 0.913 0 0.955 4 1.01
0.954 5 0.976 7 0.916 2 0.957 0 1.09
0.836 3 0.915 5 0.766 7 0.878 4 21.05
0.947 4 0.943 0 0.904 3 0.950 8 1.96
0.955 4 0.977 1 0.917 8 0.957 8 0.94

注:加粗表示最优。

表3中的消融实验结果表明,不论是去掉双路卷积模块中的全局通路还是局部通路,SABM模型的Dice指数、MDice指数、IoU指数和MIoU指数都出现小幅度下降,HD95指标小幅度上升,说明全局通路和局部通路两条路径缺一不可。
表3的实验结果还显示,去掉特征融合模块的掩码特征之后,模型性能降低最多,Dice指数下降0.119 1,MDice指数下降0.061 6,IoU指数下降0.151 1,MIoU指数下降0.079 4,HD95指数上升20.11,说明原始SAM模型本身产生的掩码特征十分重要,印证了我们在SABM模型中保持原始SAM结构完整性的重要性和必要性,说明本文保证掩码特征可靠性的思路是正确的。
最后用3×3卷积替代SABM模型中新增的蝴蝶词元和MLP模块,模型的分割能力也出现一定程度的下降,Dice指数比SABM模型下降0.008,MDice指数比SABM模型下降0.034 1,IoU指数比SABM模型下降0.013 5,MIoU指数比SABM模型下降0.007,HD95指数比SABM模型上升1.02,说明使用经过3层MLP调整的蝴蝶词元与蝴蝶特征相乘方式学习获得的掩码特征优于直接使用3×3卷积调整蝴蝶特征学习获得的掩码特征,但是蝴蝶词元与MLP联合对模型分割能力的影响比掩码特征对模型分割能力的影响小很多。
在双路卷积模块、掩码特征、蝴蝶词元和3层MLP共同作用下,本文提出的SABM模型成为目前可用于蝴蝶生态图像中蝴蝶分割任务的SOTA(state-of-the-arts)模型,对Butterfly_2018蝴蝶生态图像数据集的蝴蝶分割Dice指数达到0.955 4,MDice指数达到0.977 1,IoU指数达到0.917 8,MIoU指数达到0.957 8,HD95指标仅为0.94。由此可见,SABM模型的各个创新点对模型性能均有贡献。

3.5 SABM模型鲁棒性验证实验

SABM模型不仅可提升SAM对蝴蝶生态图像的分割能力,也可提升SAM对医学图像的分割能力。本节通过医学图像分割测试SABM模型的鲁棒性,我们用SABM对结肠息肉数据集CVC-300[32]测试集进行分割,并与SAM模型对该数据集的分割结果进行对比,2折交叉验证实验的结果如表4所示,加粗表示最优结果。图8显示了SABM与SAM在CVC-300数据集的部分分割结果,直观展示提出的SABM与原始SAM在该医学数据集的分割性能,验证SABM模型的鲁棒性。
表4 SAM与SABM在CVC-300数据集的2折交叉验证实验的分割结果比较

Tab.4 Segmentation performance comparison of SAM and SABM on CVC-300 dataset using 2-fold cross validation experiments

算法 Dice MDice IoU MIoU HD95
SAM[14] 0.918 5 0.957 9 0.851 6 0.923 2 1.62
SABM(本文) 0.930 0 0.963 8 0.872 6 0.934 0 1.59

注:加粗表示最优。

图8 SAM与SABM在CVC-300数据的分割结果示例

注:网络版为彩图。

Fig.8 Several samples of segmentation results of SAM and SABM on CVC-300 dataset

表4的实验结果表明,SABM有效提升了SAM模型对结肠息肉图像的分割能力,Dice指数比SAM提高0.011 5,MDice指数比SAM提高0.005 9,IoU指数比SAM提高0.021,MIoU指数比SAM提高0.010 8,HD95指数降低0.03。
图8中SAM与SABM对CVC-300的分割结果可视化表明,SABM对结肠息肉图像具有更强的分割能力,分割结果更加完整,更接近真实掩码;而SAM分割出的结肠息肉虽然与掩码形态大体一致,但分割结果不完整,存在许多破碎像素点。
为进一步验证SABM模型的鲁棒性,对CVC-300数据集每张图像加入脉冲噪声,即随机在图像上添加黑、白像素点,图9展示了4张加入了噪声的结肠息肉样本。在带噪声的CVC-300数据集进行2折交叉验证实验,进一步测试SABM模型的鲁棒性,实验结果如表5所示,加粗表示最优结果,括号中箭头与数字表示相比无噪声情况下的指标变化。
图9 带有脉冲噪声的样本示例

注:网络版为彩图。

Fig.9 Several samples with impulse noise

表5 SAM与SABM在带噪声的CVC-300数据集的鲁棒性验证实验的分割结果比较

Tab.5 Segmentation performance comparison of the robustness validation experiments of SAM and SABM on CVC-300 dataset with impulse noise

算法 Dice MDice IoU MIoU HD95
SAM [14] 0.835 6(↓0.082 9) 0.915 6(↓0.042 3) 0.730 2(↓0.121 4) 0.860 8(↓0.062 4) 5.95(↑4.33)
SABM(本文) 0.860 7(↓0.069 3) 0.928 1(↓0.035 7) 0.765 7(↓0.106 9) 0.878 3(↓0.055 7) 7.72(↑6.13)

注:加粗表示最优。

表5的实验结果表明,在CVC-300数据集样本加入脉冲噪声情况下,SAM以及SABM的分割能力相比表4没有噪声的情况下的分割能力均有所下降。SABM模型对噪声数据的Dice、MDice、IoU和MIoU比表4没有噪声的结果分别降低0.069 3、0.035 7、0.106 9和0.055 7,HD95上升6.13。SAM在噪声数据的Dice、MDice、IoU和MIoU比表4没有噪声情况下的结果分别降低0.082 9、0.042 3、0.121 4和0.062 4,HD95上升4.33。由此可见,SABM模型的分割性能指标Dice、MDice、IoU和MIoU受噪声影响程度比SAM模型小,说明提出的SABM模型比原始SAM模型具有更好的鲁棒性。SABM模型的HD95指标受噪声影响更大是因为该指标度量模型分割结果与真实标注之间的最大距离,对边缘误差敏感,加入的脉冲噪声会影响目标边界区域,使目标边缘模糊不清,导致模型难以准确捕捉目标边缘细节信息。
尽管如此,在噪声情况下,SABM模型的Dice、MDice、IoU及MIoU指标依然优于SAM模型,只有HD95比SAM高1.77。由此可见,提出的SABM模型具有很强的鲁棒性,不仅可用于分割非常具有挑战性的蝴蝶生态图像中的蝴蝶,还可用于医学图像分割。

3.6 SABM对蝴蝶物种识别影响验证实验

本节验证生态图像分割将保障蝴蝶自动识别的准确性。选取Butterfly_2018数据集中样本数超过10的17种蝴蝶,共426张图像,按照2∶1比例划分训练集和测试集,训练集样本数为286,测试集样本数为140。使用ResNet-1 8 [ 31 ]训练蝴蝶分类模型,实验中将所有输入图像调整为224×224大小,采用Adam优化器更新网络参数,学习率设定为1×10-4,批大小设定为32,迭代轮次设置为60,使用单张NVIDIA RTX3090显卡加速训练。分别在原始蝴蝶生态图像、锚框标注蝴蝶位置的生态图像、蝴蝶真实验掩码生态图像,以及本文SABM模型分割的蝴蝶掩码图像进行蝴蝶物种分类识别实验,比较不同情况下的模型分类准确率(accuracy,ACC),以验证本文提出的SABM分割模型对蝴蝶物种自动识别的影响。实验结果如表6所示,其中Origin为基于原始蝴蝶生态图像的分类结果,即训练集和测试集均用原始的蝴蝶生态图像;Boxed表示基于锚框的分类结果,即训练集和测试集的图像均为使用红色锚框将图像中蝴蝶标注出来的蝴蝶生态图像;GT表示基于蝴蝶真实掩码的分类结果,即训练集和测试集使用的是生态图像中蝴蝶真实掩码图像;SABM(本文)表示基于本文提出的SABM模型分割结果的蝴蝶分类结果,训练集和测试集均使用SABM模型分割出来的蝴蝶掩码图像。
表6 蝴蝶分割结果对蝴蝶分类结果影响实验

Tab.6 Experiments testing the influence of butterfly segmentation results on the butterfly species identification

指标 Origin Boxed GT SABM(本文)
ACC 0.620 1 0.649 0 0.766 4 0.766 4

注:加粗表示最优。

表6实验结果表明,ResNet-18在基于原始生态图像的蝴蝶物种识别、基于锚框标注蝴蝶位置的蝴蝶物种识别、基于蝴蝶真实掩码和基于SABM模型分割结果的蝴蝶物种识别准确率逐步提升。具体情况是,在原始生态图像的蝴蝶物种识别准确率最低,只有0.620 1;对标注了锚框的蝴蝶生态图像分类准确率高于基于原始蝴蝶生态图像的分类准确率,达到0.649 0;对去除背景的蝴蝶掩码生态图像的分类准确率更进一步上升,达到0.766 4,比基于锚框标注的蝴蝶生态图像的分类准确率高0.117 4,比基于原始蝴蝶生态图像的分类准确率高0.146 3,说明去除背景干扰后,模型能够更加有效地学习到蝴蝶分类特征,提升蝴蝶物种自动识别的准确率。表6结果还显示,利用SABM分割结果的蝴蝶分类准确率与基于真实掩码的蝴蝶分类准确率相同,说明本文SABM模型的分割效果达到了真实掩码的程度。
表6实验结果还揭示:分割生态图像中蝴蝶对蝴蝶自动化识别至关重要,保障了蝴蝶自动化识别的准确率。再次说明了本研究的重要意义。

3.7 SABM模型泛化性能测试实验

Butterfly_2018和Butterfly_2023数据集的实验测试表明,本文提出的SABM模型对蝴蝶生态图像的分割能力最佳。本节在实验室自有的、更大但没有真实掩码标注的最新蝴蝶生态图像数据集Butterfly_2024上,测试提出的SABM模型的泛化性能。
Butterfly_2024数据集的蝴蝶生态图像共有7 645张、245类,每类最少1张图像,最多945张,所有图像均为野外环境下使用高清单反相机拍摄得到的蝴蝶生态图像。该数据集的图像数量远超过Butterfly_2018和Butterfly_2023,但与Butterfly_2018和Butterfly_2023数据集的样本分布类似,Butterfly_2024的样本也呈现明显长尾分布,各类别蝴蝶生态图像的数量统计结果如图10所示,横坐标代表蝴蝶种类,纵坐标代表数据集中每一类蝴蝶的图像数量。
图10 Butterfly_2024样本分布

Fig.10 Sample distribution of Butterfly_2024

我们使用Butterfly_2018标注正确的全部707张蝴蝶生态图像重新训练SABM模型,然后用训练好的SABM模型对Butterfly_2024数据集的蝴蝶生态图像进行分割。图11给出了SABM模型对Butterfly_2024数据集的蝴蝶生态图像进行分割结果的部分图像示例。其中,第1行是原始图像,第2行是SABM模型对第1行图像的分割结果,第3行是分割结果的蝴蝶彩色图显示。
图11 SABM对Butterfly_2024蝴蝶生态图像的分割结果示例

注:网络版为彩图。

Fig.11 Several samples of segmentation results of SABM on Butterfly_2024 dataset

尽管图10显示Butterfly_2024呈现非常严重的长尾分布,给基于该数据集的蝴蝶自动识别或分割任务带来挑战。但是,实验结果发现,使用Butterfly_2018数据集训练的SABM模型对Butterfly_2024数据集的7 645张蝴蝶生态图像进行分割,取得了非常好的分割结果。因为Butterfly_2024数据集样本没有任何标注的掩码信息,因此本文无法给出SABM模型在Butterfly_2024数据集泛化性能测试的量化评价结果,仅能给出SABM对Butterfly_2024数据集的蝴蝶生态图像分割结果的示例图。
图11基于Butterfly_2018数据集训练的SABM模型对Butterfly_2024数据集的蝴蝶生态图像分割的结果显示,SABM模型具有非常好的泛化性能,在Butterfly_2018数据集训练的SABM模型对Butterfly_2024数据集的蝴蝶生态图像的分割效果非常好。这些分割结果可以作为该数据集蝴蝶生态图像的蝴蝶掩码信息,为后续蝴蝶分割任务提供可用的更大数据集,也为基于该数据集的蝴蝶物种自动识别任务提供可靠的蝴蝶掩码信息,保障蝴蝶物种自动识别模型的性能。
另外,该分割结果还可用于测试聚类算法的性能,并为测试聚类算法性能提供了非常富有挑战性的测试数据。

4 结语

本文提出了一种新颖的增强SAM模型,并命名为SABM,用于分割蝴蝶生态图像中的蝴蝶。模型提出双路卷积对SAM编码器特征进行进一步的特征提取,得到全局和局部特征,然后与SAM掩码解码器的掩码特征进行特征融合得到蝴蝶特征; 同时引入一个3层MLP对随机生成的蝴蝶词元进行调整,并与蝴蝶特征相乘,得到最终预测的蝴蝶掩码。
Butterfly_2018及Butterfly_2023蝴蝶生态图像数据集的2折交叉验证实验测试,验证了提出的SABM模型是蝴蝶生态图像分割的SOTA模型,优于大模型SAM以及SAM的改良模型HQ-SAM、MobileSAM、FastSAM、EfficientSAM、TinySAM和MSA。消融实验验证了SABM模型各创新点对提升模型性能的积极贡献,特别是保留SAM模型的结构完整性对提升SABM模型性能非常重要。
Butterfly_2018蝴蝶生态图像数据集训练的SABM模型对Butterfly_2024数据集的7 645张蝴蝶生态图像的完美分割结果,验证了SABM模型具有非常好的泛化能力。SABM模型对Butterfly_2024数据集的分割结果可作为该数据集图像的掩码信息,为训练泛化能力更强的端到端蝴蝶分割模型提供更大的数据基础,也为野外环境下蝴蝶物种自动识别研究提供带有蝴蝶掩码的数据集,还可以用作测试聚类算法性能的富有挑战性的数据集。
基于原始蝴蝶生态图像、蝴蝶锚框生态图像、蝴蝶掩码生态图像和SABM分割结果的蝴蝶物种自动识别实验,验证了SABM模型对蝴蝶生态图像的分割结果达到了蝴蝶掩码的程度,保障了蝴蝶自动化识别的准确率。
另外,结肠息肉数据集CVC-300的分割实验验证了提出的SABM模型具有很好的鲁棒性,可用于医学图像的病灶区域分割,辅助医生进行疾病诊断和治疗,这也是笔者目前正在进行的研究工作。
[1]
ESPELAND M, BREINHOLT J, WILLMOTT K R, et al. A comprehensive and dated phylogenomic analysis of butterflies[J]. Current Biology, 2018, 28(5):770-778.e5.

DOI PMID

[2]
马方舟, 徐海根, 丁晖, 等. 我国蝴蝶多样性的保护现状与对策[J]. 世界环境, 2016(S1):29-31.

MA F Z, XU H G, DING H, et al. Status quo and countermeasures of butterfly diversity conservation in China[J]. World Environment, 2016(S1):29-31.

[3]
赵戈伟, 许升全, 谢娟英. DL-MAML:一种新的蝴蝶物种自动识别模型[J]. 计算机研究与发展, 2024, 61(3):674-684.

ZHAO G W, XU S Q, XIE J Y. DL-MAML:an innovative model for automatically identifying butterfly species[J]. Journal of Computer Research and Development, 2024, 61(3):674-684.

[4]
谢娟英, 侯琦, 史颖欢, 等. 蝴蝶种类自动识别研究[J]. 计算机研究与发展, 2018, 55(8):1609-1618.

XIE J Y, HOU Q, SHI Y H, et al. The automatic identification of butterfly species[J]. Journal of Computer Research and Development, 2018, 55(8):1609-1618.

[5]
谢娟英, 鲁银圆, 孔维轩, 等. 基于改进RetinaNet的自然环境中蝴蝶种类识别[J]. 计算机研究与发展, 2021, 58(8):1686-1704.

XIE J Y, LU Y Y, KONG W X, et al. Butterfly species identification from natural environment based on improved RetinaNet[J]. Journal of Computer Research and Development, 2021, 58(8):1686-1704.

[6]
KONG W X, YANG M J, ZHANG J Y, et al. MRFB-net for identifying butterfly species via images taken in the field environments[C]// 2023 International Conference on Machine Learning and Cybernetics(ICMLC).Adelaide. New York: IEEE, 2023:260-267.

[7]
XIE J Y, KONG W X, LU Y Y, et al. KSRFB-net:detecting and identifying butterflies in ecological images based on human visual mechanism[J]. International Journal of Machine Learning and Cybernetics, 2022, 13(10):3143-3158.

DOI

[8]
XIE J Y, LU Y Y, WU Z Z, et al. Investigations of butterfly species identification from images in natural environments[J]. International Journal of Machine Learning and Cybernetics, 2021, 12(8):2431-2442.

DOI

[9]
李飞, 赵凯旋, 严春雨, 等. 基于残差网络的自然环境下蝴蝶种类识别[J]. 昆虫学报, 2023, 66(3):409-418.

LI F, ZHAO K X, YAN C Y, et al. Identification of butterfly species in the natural environment based on residual network[J]. Acta Entomologica Sinica, 2023, 66(3):409-418.

[10]
李策, 张栋, 杜少毅, 等. 一种迁移学习和可变形卷积深度学习的蝴蝶检测算法[J]. 自动化学报, 2019, 45(9):1772-1782.

LI C, ZHANG D, DU S Y, et al. A butterfly detection algorithm based on transfer learning and deformable convolution deep learning[J]. Acta Automatica Sinica, 2019, 45(9):1772-1782.

[11]
谢娟英, 曹嘉文, 马丽滨, 等. 蝴蝶物种自动识别研究的生态照片数据集[J]. 中国科学数据, 2019, 4(3):189-194.

XIE J Y, CAO J W, MA L B, et al. A dataset of butterfly ecological images for automatic species identification[J]. China Scientific Data, 2019, 4(3):189-194.

[12]
高阳, 杜军平, 许升全. 第7届中国数据挖掘会议暨第3届中国数据挖掘大赛(首届国际蝴蝶识别大赛)[EB/OL].[2021-03-09]. https://ccdm2018.sdufe.edu.cn/sjwjjs.htm.

GAO Y, DU J P, XU S Q. 7th China conference on data mining and 3rd China data mining competition(1st international butterfly identification competition)[EB/OL].[2021-03-09]. https://ccdm2018.sdufe.edu.cn/sjwjjs.htm.

[13]
SUN C, SHRIVASTAVA A, SINGH S, et al. Revisiting unreasonable effectiveness of data in deep learning era[C]// 2017 IEEE International Conference on Computer Vision(ICCV).Venice. New York: IEEE, 2017:843-852.

[14]
KIRILLOV A, MINTUN E, RAVI N, et al. Segment anything[C]// 2023 IEEE/CVF International Conference on Computer Vision(ICCV).Paris. New York: IEEE, 2024:3992-4003.

[15]
KE L, YE M K, DANELLJAN M, et al. Segment anything in high quality[C]// Proceeding of the 37th International Conference on Neural Information Processing Systems.New Orleans. New York: Curran Associates Inc, 2024: 1303.

[16]
LI Y Q, WANG D D, YUAN C, et al. Enhancing agricultural image segmentation with an agricultural segment anything model adapter[J]. Sensors, 2023, 23(18):7884.

DOI

[17]
CHEN T R, ZHU L Y, DING C T, et al. SAM-adapter:adapting segment anything in underperformed scenes[C]// 2023 IEEE/CVF International Conference on Computer Vision Workshops(ICCVW).Paris. New York: IEEE, 2023:3359-3367.

[18]
WU J D, WANG Z Y, HONG M X, et al. Medical SAM adapter:adapting segment anything model for medical image segmentation[J]. Medical Image Analysis, 2025, 102:103547.

DOI

[19]
DEVLIN J, CHANG M W, LEE K, et al. BERT:pre-training of deep bidirectional Transformers for language understanding[C]// North American Chapter of the Association for Computational Linguistics.Minneapolis. New York: ACL, 2019

[20]
BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[C]// Proceedings of the 34th International Conference on Neural Information Processing Systems.Vancouver,BC. New York: ACM, 2020:1877-1901.

[21]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceeding of the 31st International Conference on Neural Information Processing Systems. Long Beach. New York: Curran Associates Inc., 2017: 6000-6010.

[22]
DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words:Transformers for image recognition at scale[EB/OL].[2025-01-31]. https://arxiv.org/abs/2010.11929.

[23]
LIU Z, LIN Y T, CAO Y, et al. Swin Transformer:hierarchical vision Transformer using shifted windows[C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV).Montreal,QC. New York: IEEE, 2022:9992-10002.

[24]
ZHAO X, DING W C, AN Y Q, et al. Fast segment anything[EB/OL].[2025-01-31]. https://arxiv.org/abs/2306.12156.

[25]
ZHANG C N, HAN D S, QIAO Y, et al. Faster segment anything:towards lightweight SAM for mobile applications[EB/OL].[2025-01-31]. https://arxiv.org/abs/2306.14289.

[26]
XIONG Y Y, VARADARAJAN B, WU L M, et al. EfficientSAM:leveraged masked image pretraining for efficient segment anything[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle,WA. New York: IEEE, 2024:16111-16121.

[27]
SHU H, LI W S, TANG Y H, et al. TinySAM:pushing the envelope for efficient segment anything model[EB/OL].[2025-01-31]. https://arxiv.org/abs/2312.13789.

[28]
MA J, HE Y T, LI F F, et al. Segment anything in medical images[J]. Nature Communications, 2024, 15:654.

DOI PMID

[29]
MEI L Y, YE Z Y, XU C, et al. SCD-SAM:adapting segment anything model for semantic change detection in remote sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62:5626713.

[30]
LIN X, XIANG Y Y, YU L, et al. Beyond adapting SAM:towards end-to-end ultrasound image segmentation via auto prompting[C]//Medical Image Computing and Computer Assisted Intervention. Cham:Springer, 2024:24-34.

[31]
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV. New York: IEEE, 2016:770-778.

[32]
VÁZQUEZ D, BERNAL J, SÁNCHEZ F J, et al. A benchmark for endoluminal scene segmentation of colonoscopy images[J]. Journal of Healthcare Engineering, 2017, 2017(1):4037190.

[33]
GHIASI G, CUI Y, SRINIVAS A, et al. Simple copy-paste is a strong data augmentation method for instance segmentation[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Nashville,TN. New York: IEEE, 2021:2917-2927.

Outlines

/