摘要:目的 现有 Transformer 模型虽然在形态复杂的结直肠息肉分割中拥有较高准确率,但是其注意力分散,编码 器输出多级语义信息在融合中会产生信息丢失,限制了模型准确率进一步提高,针对此问题,提出一种新的肠道息 肉图像分割模型:双通管道聚合网络( Dual -Channel Aggregation Transformer, R -DCAformer) 。 方法 R -DCAformer 模型使用金字塔混合的 Transformer( Mix Transformer, MIT) 和 Resnet18 充当编码器,设计了双通道聚合 ( Dual - Channel Aggregation, DCA) 模块充当解码器。 DCA 解码器由注意力聚合模块( Attention Aggregation, AA) 和双通道 特征聚合模块( Dual-Channel Feature Fusion,DFF) 组成,其中,金字塔 MIT 编码器可以为模型提供充足泛化能力, AA 模块可以通过融合 Resnet18 的额外特征限制模型 MIT 中的注意力分散,DFF 模块则可以缓解多级语义信息融 合中的信息丢失问题。 结果 泛化能力实验中,R-DCAformer 在 CVC-ColonDB 中相比于基线模型中最优的 mDice、 mIoU 和 MAE 分别提高了 2. 10%、1. 65%和 22. 5%,在 ETIS 中,相比于基线模型中最优的 mDice、mIoU 和 MAE 分 别提高了 2. 56%、2. 12%和 15%;模型在 CVC-ClinicDB 数据集上,相比于基线模型中的最优 mDice、mIoU 提高了约 0. 85% 、1. 35%;在 Kvasir-SEG 数据集上,相比于基线模型中的最优 mDice、mIoU 和 MAE 提高了约 1. 19% 、1. 97% 和 17. 39%。 此外还通过消融实验和注意力图论证了本文所提出模块的有效性。 结论 R-DCAformer 在学习和泛化 实验中效果都较为优异,总体上优于对比的基线模型,为结直肠息肉分割提供了新的高性能模型。