摘要:目的 针对现有 Transformer 模型在息肉图像分割中存在注意力分散以及作为编码器提取的多级特征在融合时易产生信息丢失导致的分割精度不高的问题,提出一种新的分割模型 PVT-CAMNet。 方法 在该模型中,使用金 字塔式 Transformer(Pyramid Vision Transformer, PVT)作为编码器,接着设计了多尺度特征注意力提取模块(Multiscale Feature Attention Extraction,MFAE)和层间注意力聚合模块(Inter-layer Attention Aggregation, IA)。 其中,PVT通过其自注意力机制保证了模型的泛化能力,MFAE 使用不同大小的滤波器多尺度提取特征,旨在缓解注意力分散问题;IA 交互融合不同层级特征,有效解决多级特征融合产生的信息丢失问题;最后引入全局上下文模块 (Global Context,GC) 使模型更好地理解特征图之间的像素依赖关系。 结果 在 Kvasir、CVC - ClinicDB、CVC -ColonDB 和 ETIS 数据集上进行了评估,相较于最优基线模型,mDice、mIoU 分别提高了 1. 76%、0. 81%、1. 51%、 1. 74%、3. 15%、2. 65% 和 1. 73%、3. 84%。 结论 PVT-CAMNet 的学习性能和泛化性能均优于其他先进方法,在息肉图像分割上具有一定的应用价值。