2025(1):1-8.
摘要:目的 现有的基于图神经网络( GNN) 的推荐方法忽略了会话中有价值用户在项目上的时间驻留信息,无法解决用户无意识点击带来的影响,同时忽略图神经网络中隐藏因素的表达能力,针对以上问题,提出一种融合时间驻留信息的图神经网络会话推荐模型( Graph Neural Network Session-based Recommendation Based on Fusion of TimeResident Information, TRGNN) 。 方法 首先,对用户在各个项目上的驻留时间信息进行处理,通过时间图神经网络得到时间特征;其次,应用多头注意力机制增强因素的表达能力更好地提取项目特征,TRGNN 将时间特征与项目特征进行融合得到最终特征,通过注意力网络得到全局上下文和局部上下文;最后,通过预测层得到最终推荐结果。 结果 在 Diginetica 和 Yoochoose 两个真实数据集上进行对比实验,实验结果表明:相较于最优基线模型,本模型在 Mrr@ 20 评价指标下分别提升了 1. 57%和 3. 30%,在 Recall@ 20 指标下分别提升了 1. 10%和 0. 66%。 结论 本模型实现了更好的推荐效果,能更好地挖掘隐藏信息,充分应用时间特征和项目隐藏特征来提高推荐准确率,降低用户误触对推荐准确率的影响。
2025(1):42-47.
摘要:目的 针对工业场所背景复杂导致安全帽的检测精度低、效果不佳等问题,提出了一种基于 YOLOv5 的智能检测安全帽的方法。 方法 首先在原模型 YOLOv5 的骨干网络中增加注意力机制,增强对不同尺寸目标特征的提取,使得网络将注意力聚焦在含有安全帽的区域,增强了网络对安全帽信息的提取,以此有效提取安全帽的特征信息;在预测层使用 EIoU 损失函数,考虑宽和置信度的差异、高和置信度的差异,把纵横比拆开,以此改善样本不平衡问题,提升收敛速度的同时提高了回归精度。 结果 根据实验结果,改进的算法平均精度达到了 94. 7%。 相比于YOLOv5 算法平均检测精度提高了 2. 2%,相比于 YOLOv3 算法平均检测精度提高了 12. 6%,可以有效地检测安全帽。 结论 在同样的背景环境下,改进的算法可以有效地检测出远距离的小目标,对于复杂背景信息的图片,也可以准确地检测出目标。 改进的算法有效地改善了原算法中小目标漏检和误检情况,也提高了检测精度。
2025(1):48-56.
摘要:目的 解决目前危化实验室、工厂等危险环境下护目镜佩戴情况检测存在的人工检查效率低下、无法有效保障人员眼部安全等问题。 方法 首先构建出护目镜佩戴检测数据集,其中包含 4 个真实场景图片与部分网络爬取数据集,并通过数据增强等手段将原始的 3 383 张扩充至 5 462 张图片,构成最终数据集,使各个样本数量达到均衡,有效预防了因样本不均衡导致的模型精度低的问题;接着提出改进型 YOLOv5 目标检测算法来实现对护目镜佩戴情况的自动检测,算法在 YOLOv5 中添加 SPD 小目标检测模块,该模块完全消除了传统卷积模块中导致信息丢失的步长卷积和池化操作,使网络保留更多信息,引入坐标注意力机制解决了因添加 SPD 带来的相邻位置关系无法有效提取的问题;同时,将原本的损失函数替换为 SIoU 损失函数,有效解决了真实框与目标框相互包含情况下的IoU 计算问题,减少了计算自由度,降低了模型计算量,提升了模型准确率。 结果 在护目镜配戴检测数据集上的实验结果表明:改进型的 YOLOv5 模型在护目镜佩戴检测数据集上的平均精度为 72. 7%,相较于原始 YOLOv5 模型平均精度提高了 5. 6%。 结论 该模型实现了对复杂环境下护目镜佩戴情况的基本检测。
2025(1):57-63.
摘要:目的 考虑现有的图像语义分割网络存在分割精度低、参数量大等问题,提出一种融合轻量化和注意力机制的语义分割算法。 方法 该算法在 DeeplabV3+网络模型结构的基础上,使用 MobileNetV2 网络替换原始网络模型结构的 Xception 主干网络,构建轻量化语义分割网络结构,以此减少模型参数量和计算量,提高分割速度。 同时,为了有效获取关注语义信息的正确特征,在编码阶段加入注意力模块机制,使网络模型在学习过程中只关注它所需要关注的点,提高图像分割精度,达到良好的分割效果。 最后,在网络模型训练过程中引入 BCE loss( Binary CrossEntropy loss) 和 Dice loss 损失函数相结合,加快网络的快速收敛,对模型更好的优化,以此提高模型的分割精度。结果 通过在数据集 PASCAL VOC2012 实验验证表明,该算法的分割精度提高了 2. 82 个百分点,参数量降低了14. 46 M。 同时,数据集 Cityscapes 的实验结果也验证了该算法的优越性。 结论 优化后的 DeeplabV3+网络模型提高网络模型性能。
2025(2):63-70.
摘要:目的 针对水下环境复杂,水下目标因光线折射导致的目标边界模糊或外观、形状可能会发生非刚性形变,使水下目标检测困难的问题,提出了一种基于 SimAM 注意力机制的 DCN-YOLOv5 水下目标检测方法。 方法 首先,采用 YOLOv5 所使用的双向金字塔网络( BiFPN, Bi-directional Feature Pyramid Network) 在多个尺度上提取和融合特征信息,从而提高目标辨别的准确度;其次,针对水下目标的外观、形状变化问题,将 C3 模块中的 CBS 模块结合可变形卷积( DCN, Deformable Convolution Network) ,提出 DBS 模块并组成 D3 模块替换部分 C3 模块,以适应水下目标的外观、形状变化;同时,融入加权注意力机制( SimAM) ,自适应地调节模型的关注度,进一步在复杂场景下增强特征表达能力;最后,考虑目标边界模糊,为改善目标定位精度,采用 WIoU( Wise-IoU) 损失函数来替换交叉熵损失,能够更好地适应不同目标类型和尺寸的特点,提高算法鲁棒性。 结果 实验结果表明:DCN-YOLOv5 可以达到 87. 57%的平均精度( mAP ) ,检测效果优于 YOLOv5 网络和其他经典网络,平均每张图像的识别时间仅为24. 5 ms。 结论 通过实验结果可以证明模型在检测精度明显提升的同时兼顾检测的实时性,对水下目标检测用于实际用途有着一定的参考价值。
2025(1):72-78.
摘要:目的 变压器是电力系统中重要的设备,其发生故障时能够被有效地判别出故障类别,使得电力检修效率提升,这对电网的安全运行具有重要意义。 针对电网电力检修中出现的变压器故障判别精度不足这一问题,提出了基于自注意力机制与 1D-CNN 的变压器故障诊断方法。 常规卷积在处理 DGA 气体样本数据时容易损失特征信息,导致故障诊断的准确率偏低,论文将自注意力机制与 1D-CNN 结合,有效改善了上述问题,提高了变压器故障诊断的准确率和可靠性。 方法 为减少卷积网络提取到的特征提取信息在模型层间传播时造成的损失,论文在 1D-CNN 的基础上使用 LeakyReLU 函数替代原模型中的 ReLU 激活函数,相比于 ReLU 激活方式下很多神经元都没有被激活,LeakyReLU 可以降低模型的稀疏性,使得网络特征信息多样性增加。 自注意力机制可实现对变压器油中溶解气体数据的特征信息加权处理,实现了有效特征信息增强作用,采用动态衰减学习率策略对优化器进行优化。结果 所提的方法损失率可降低至 0. 078,相比于无动态衰减学习率和 ReLU 激活方式,损失率分别降低了 44. 7%和38. 6%;诊断准确率可达到 93. 79%,较 1D-CNN 和 GOA-BP 方法诊断准确率提高了 0. 36%和 2. 12%。 结论 算例仿真验证了所提方法的有效性和优越性,表明基于自注意力机制与 1D-CNN 的变压器故障诊断方法能有效提高诊断的准确率,降低模型的损失率。
2025(2):78-85.
摘要:目的 针对当前 Deepfake 检测侧重全局伪造特征,而局部纹理差异特征利用不足导致模型泛化性能差的问题,提出一种基于局部纹理差异特征增强的 Deepfake 检测模型,通过挖掘伪造图像内在的空间伪造模式,提高检测的准确性和泛化性。 方法 模型首先通过中心差分卷积操作捕捉像素强度和像素梯度两种信息,从而获得更精确的局部纹理差异信息,提高对伪造图像的敏感性。 其次,构建双层注意力模块,旨在利用空间注意力学习位置敏感的权重信息,并通过通道注意力自适应调整通道重要性,定位重要纹理差异特征的位置,增强纹理差异特征的表示。结果 在高质量和低质量的 FaceForensics++数据集上的实验,平均准确率分别达到了 97. 36%和 92. 37%,而 Celeb-DF 数据集上的跨数据集实验获得了比当前先进的检测模型更好的泛化性,大量的消融实验表明了方法的有效性。结论 实验表明:引入中心差分和双层注意力模块后模型能够更好地捕捉图像的纹理差异信息,适应不同场景和压缩率的伪造检测,有效提高了 Deepfake 检测的准确性和泛化性。
2025(1):85-93.
摘要:目的 针对因息肉大小不一,边界不清,光线影响,在图片中所占比例较小导致的分割精度不高的问题,提出了一种改进的 U 型结构网络 BMR-Net。 方法 该模型的框架为编码器-解码器形式,在编码器部分采用 ResNeSt 提取特征,在计算成本增加很少的情况下改善了特征提取效果; 在编码器和解码器之间设计边界预测生成模块( BPGM) 来聚合高层特征并加入改良空间金字塔池化模块,在其中引入注意力机制,提升多尺度信息融合效果,获得更精确的全局特征图表示;针对不清晰的边缘部分采用反向注意力模块,删除已预测区域,校正边界信息。 结果在 CVC-ClinicDB、Kvasir - SEG、CVC - ColonDB、 ETIS - Larib、 EndoScene 数据集上进行测试, mDice 值分别达到了0. 930、0. 903、0. 743、0. 712、0. 874。 结论 该方法分割性能和泛化性能均优于其他的先进方法,并且可以更加精确和完整地分割出小尺寸息肉,可以为结肠息肉患者提供早期预后信息。
2025(2):112-119.
摘要:业务流程中的一项重要工作是进行数据的异常检测,它可以用于监控和识别企业或组织中出现的异常情况。 目的 针对目前业务流程异常检测方法大多数只考虑控制流,并未考虑事件日志中其他数据属性对业务流程影响的情况,提出一个多视角无监督异常检测模型。 方法 首先,将控制流和数据流分别进行处理,然后拼接形成可以输入到模型中的数据类型;其次,利用自注意力机制和 Bi-LSTM 自编码器组合成的模型,分别对控制流视角和数据流视角进行业务流程事件日志的特征提取,并进行拼接和异常检测,异常阈值由自编码器的重构误差来确定;最后将提出的模型在公共数据集上进行了验证。 结果 用真实事件日志对提出的方法进行评估,与其他方法进行对比分析可知,所提出的方法在精确度、召回率和 F1 分数 3 个方面都有较好的表现,且所提出的模型 AUC 在所有数据集上都达到了较大的值。 结论 实验结果表明:所提出的方法可以更好地检测过程事件日志中的异常;通过在模型中加入注意力机制并且将控制流和数据流视角进行结合,更好地表示了过程数据,使得模型的分类性能得到了较大的提升,在业务流程异常检测方面具有明显的优势。
2024, 41(5):49-57.
摘要:目的 现有 Transformer 模型虽然在形态复杂的结直肠息肉分割中拥有较高准确率,但是其注意力分散,编码器输出多级语义信息在融合中会产生信息丢失,限制了模型准确率进一步提高,针对此问题,提出一种新的肠道息肉图像分割模型:双通管道聚合网络( Dual -Channel Aggregation Transformer, R -DCAformer) 。 方法 R -DCAformer模型使用金字塔混合的 Transformer( Mix Transformer, MIT) 和 Resnet18 充当编码器,设计了双通道聚合 ( Dual -Channel Aggregation, DCA) 模块充当解码器。 DCA 解码器由注意力聚合模块( Attention Aggregation, AA) 和双通道特征聚合模块( Dual-Channel Feature Fusion,DFF) 组成,其中,金字塔 MIT 编码器可以为模型提供充足泛化能力,AA 模块可以通过融合 Resnet18 的额外特征限制模型 MIT 中的注意力分散,DFF 模块则可以缓解多级语义信息融合中的信息丢失问题。 结果 泛化能力实验中,R-DCAformer 在 CVC-ColonDB 中相比于基线模型中最优的 mDice、mIoU 和 MAE 分别提高了 2. 10%、1. 65%和 22. 5%,在 ETIS 中,相比于基线模型中最优的 mDice、mIoU 和 MAE 分别提高了 2. 56%、2. 12%和 15%;模型在 CVC-ClinicDB 数据集上,相比于基线模型中的最优 mDice、mIoU 提高了约0. 85% 、1. 35%;在 Kvasir-SEG 数据集上,相比于基线模型中的最优 mDice、mIoU 和 MAE 提高了约 1. 19% 、1. 97%和 17. 39%。 此外还通过消融实验和注意力图论证了本文所提出模块的有效性。 结论 R-DCAformer 在学习和泛化实验中效果都较为优异,总体上优于对比的基线模型,为结直肠息肉分割提供了新的高性能模型。