2025年第1期文章目次

2025, 42(1):1-8.

摘要 (751) HTML (0) PDF 1.42 M (679) 评论 (0) 收藏

摘要:目的现有的基于图神经网络( GNN) 的推荐方法忽略了会话中有价值用户在项目上的时间驻留信息,无法解决用户无意识点击带来的影响,同时忽略图神经网络中隐藏因素的表达能力,针对以上问题,提出一种融合时间驻留信息的图神经网络会话推荐模型( Graph Neural Network Session-based Recommendation Based on Fusion of Time Resident Information, TRGNN) 。方法首先,对用户在各个项目上的驻留时间信息进行处理,通过时间图神经网络得到时间特征;其次,应用多头注意力机制增强因素的表达能力更好地提取项目特征,TRGNN 将时间特征与项目特征进行融合得到最终特征,通过注意力网络得到全局上下文和局部上下文;最后,通过预测层得到最终推荐结果。结果在 Diginetica 和 Yoochoose 两个真实数据集上进行对比实验,实验结果表明:相较于最优基线模型,本模型在 Mrr@ 20 评价指标下分别提升了 1. 57%和 3. 30%,在 Recall@ 20 指标下分别提升了 1. 10%和 0. 66%。结论本模型实现了更好的推荐效果,能更好地挖掘隐藏信息,充分应用时间特征和项目隐藏特征来提高推荐准确率,降低用户误触对推荐准确率的影响。

结构与纹理双生成的二阶段网络图像修复

石计亮 , , 张乾 ,

2025, 42(1):9-19.

摘要 (837) HTML (0) PDF 5.58 M (636) 评论 (0) 收藏

摘要:目的针对现有图像修复方法不能很好地实现结构和纹理信息之间的双向交互,在修复缺失面积较大或纹理复杂的图像时存在纹理模糊、结构失真等问题。方法提出了一种基于双向坐标注意融合模块和傅里叶特征聚合模块的二阶段网络图像修复方法。首先,使用结构编-解码器和纹理编-解码器对受损图像进行结构重建和纹理合成,产生初步的修复结果;然后,将粗修复结果输入到细化修复网络,利用双向坐标注意融合模块和傅里叶特征聚合模块对图像内部纹理细节进行修复;为增强全局一致性,设计了双向坐标注意融合模块来实现结构和纹理信息之间的双向交互,并设计了傅里叶特征聚合模块,用于捕获全局上下文信息,增强图像局部特征之间的相关性,以获得精细的修复结果;此外,还利用双流判别器来估计结构和纹理的特征统计量,以区分原始图像和生成图像。结果在 CelebA-HQ 数据集上进行实验,与 4 种图像修复方法进行比较,定性结果表明方法生成的人脸图像更加清晰自然;定量结果表明方法在峰值信噪比、结构相似性指数和弗雷歇距离上均优于对比算法;对模型中各模块的消融实验结果也验证了所提出创新点的有效性。结论因此,所提出的方法能够有效地修复受损的人脸图像,特别是在大面积遮挡下也能生成具有结构合理、纹理清晰的图像。

基于改进 DETR 的绝缘子缺陷检测算法

欧阳名三 , 李杰

2025, 42(1):20-27.

摘要 (731) HTML (0) PDF 3.50 M (689) 评论 (0) 收藏

摘要:目的绝缘子缺陷的定期检测与维修对保障输电线路的安全有至关重要的作用,为了解决绝缘子缺陷检测方法存在检测精度不高、泛用性不强等问题,提出了一种基于改进 DETR( Detection Transformer) 的绝缘子缺陷检测算法。方法设计改进编码器,使用 4 个 Transformer stage 来捕捉图像中不同尺度和关系的特征信息。同时,还利用了 ResNet50 的中间输出特征来补充分层 Transformer 的输出特征,从而提升目标检测算法的性能。设计改进解码器,采用了三层串联的结构,以确保解码器能够在不同阶段接收并学习不同尺度的特征图,同时特征融合增强模块和查询更新模块使解码器能够更有效地学习图像的特征信息且降低匹配具有相似语义特征区域的难度,进一步提高网络检测的准确率。结果通过对输电线路绝缘子缺陷航拍图像进行了仿真实验研究,在不同阈值下改进方法识别精度分别达到了 99. 5%、80. 4%,较原算法分别提升了 3. 4%、6. 1%,对部分遮挡目标有较好的检测效果,同时与其他算法相比具有更优的检测精度和泛化能力。结论改进 DETR 具有更高的检测性能,实现对绝缘子缺陷的准确检测,为下一步对于其他输电线路目标,如防震锤、间隔棒等检测提供了保证。

基于 YOLOv8 同步动态检测与局部语义视觉 SLAM

杨海波 , 曹雏清

2025, 42(1):28-34.

摘要 (1135) HTML (0) PDF 5.78 M (674) 评论 (0) 收藏

摘要:目的视觉 SLAM 作为自动驾驶和移动机器人的核心技术之一,传统算法无法应对高度动态的环境,也缺乏地图的语义信息,解决动态物体对 SLAM 系统的影响是研究的主要目标,也是当前热点问题之一。方法提出一个新的基于 YOLOv8 同步动态检测与局部语义分割的方法,来实现动态环境下的位姿估计与局部语义建图。首先, 通过应用 YOLOv8 对输入图像进行同步动态检测和语义分割,使用目标检测结果的目标框对动态特征点进行剔除,再运用静态特征点进行姿态估计,然后在系统的语义建图线程中,对语义分割后的图像加入扩张掩模,最后使用点云库进行语义地图的构建,从而产生能够应用于实际场景的语义地图。结果在 TUM 数据集中进行了比较试验,数据显示:这种方法相对于传统方法能提高 98. 1%的位姿准确率,并且在实时性测试中,本文算法的速度也优于同类算法,而且可以在同一时间创建出局部语义地图。结论基于 YOLOv8 同步动态检测与局部语义的方法来处理常规场景下的动态物体对 SLAM 系统的影响十分有效,且实时性高,但对于一些特殊场景如摄像机大幅旋转等, 由于目标检测的失效而导致动态特征剔除失败,从而系统精度降低。

基于特征对齐和特征融合的半监督目标检测算法

汤文兵 , 李菲

2025, 42(1):35-41.

摘要 (848) HTML (0) PDF 3.61 M (607) 评论 (0) 收藏

摘要:目的针对半监督目标检测导致数据特征表示不充分,数据样本类不均衡等问题,提出一种基于特征对齐和特征融合的半监督目标检测方法。方法在常见的半监督目标检测框架中,伪标签是完全根据分类分数生成的,然而,高置信度预测并不总是保证准确的 bbox 定位。为了解决定位不准确问题和特征表示不充分问题,受 Consistent Teacher 中的 FAM-3D 算法启发,考虑分类和定位的最优特征可能在不同尺度上,引入 T-head 特征对齐头算法,在 Unbiased Teacher V2 中成功地将分类和定位分支进行对齐,并且引入 ASFF,通过空间过滤冲突信息的方法来抑制不一致性,从而提高了特征的尺度不变性,实现特征在空间上的融合;通过学习不同特征图之间的联系来解决特征金字塔内部的不一致性问题。结果根据实验结果,改进的算法在 COCO 数据集、VOC 数据集上都有一定的比例提升。结论改进的算法可以有效减轻数据表示不充分和数据样本类不均衡问题,同时也提高了算法的精度。

基于 YOLOv5 的安全帽检测方法研究

张帅帅

2025, 42(1):42-47.

摘要 (1193) HTML (0) PDF 5.34 M (747) 评论 (0) 收藏

摘要:目的针对工业场所背景复杂导致安全帽的检测精度低、效果不佳等问题,提出了一种基于 YOLOv5 的智能检测安全帽的方法。方法首先在原模型 YOLOv5 的骨干网络中增加注意力机制,增强对不同尺寸目标特征的提取,使得网络将注意力聚焦在含有安全帽的区域,增强了网络对安全帽信息的提取,以此有效提取安全帽的特征信息;在预测层使用 EIoU 损失函数,考虑宽和置信度的差异、高和置信度的差异,把纵横比拆开,以此改善样本不平衡问题,提升收敛速度的同时提高了回归精度。结果根据实验结果,改进的算法平均精度达到了 94. 7%。相比于 YOLOv5 算法平均检测精度提高了 2. 2%,相比于 YOLOv3 算法平均检测精度提高了 12. 6%,可以有效地检测安全帽。结论在同样的背景环境下,改进的算法可以有效地检测出远距离的小目标,对于复杂背景信息的图片,也可以准确地检测出目标。改进的算法有效地改善了原算法中小目标漏检和误检情况,也提高了检测精度。

基于改进 YOLOv5 的护目镜佩戴检测算法

聂壮壮 , 汪军 , 黄翔翔

2025, 42(1):48-56.

摘要 (1457) HTML (0) PDF 10.23 M (630) 评论 (0) 收藏

摘要:目的解决目前危化实验室、工厂等危险环境下护目镜佩戴情况检测存在的人工检查效率低下、无法有效保障人员眼部安全等问题。方法首先构建出护目镜佩戴检测数据集,其中包含 4 个真实场景图片与部分网络爬取数据集,并通过数据增强等手段将原始的 3 383 张扩充至 5 462 张图片,构成最终数据集,使各个样本数量达到均衡, 有效预防了因样本不均衡导致的模型精度低的问题;接着提出改进型 YOLOv5 目标检测算法来实现对护目镜佩戴情况的自动检测,算法在 YOLOv5 中添加 SPD 小目标检测模块,该模块完全消除了传统卷积模块中导致信息丢失的步长卷积和池化操作,使网络保留更多信息,引入坐标注意力机制解决了因添加 SPD 带来的相邻位置关系无法有效提取的问题;同时,将原本的损失函数替换为 SIoU 损失函数,有效解决了真实框与目标框相互包含情况下的 IoU 计算问题,减少了计算自由度,降低了模型计算量,提升了模型准确率。结果在护目镜配戴检测数据集上的实验结果表明:改进型的 YOLOv5 模型在护目镜佩戴检测数据集上的平均精度为 72. 7%,相较于原始 YOLOv5 模型平均精度提高了 5. 6%。结论该模型实现了对复杂环境下护目镜佩戴情况的基本检测。

融合轻量化和注意力机制的语义分割算法

袁嫚嫚 , 陆灏

2025, 42(1):57-63.

摘要 (918) HTML (0) PDF 4.91 M (696) 评论 (0) 收藏

摘要:目的考虑现有的图像语义分割网络存在分割精度低、参数量大等问题,提出一种融合轻量化和注意力机制的语义分割算法。方法该算法在 DeeplabV3+网络模型结构的基础上,使用 MobileNetV2 网络替换原始网络模型结构的 Xception 主干网络,构建轻量化语义分割网络结构,以此减少模型参数量和计算量,提高分割速度。同时,为了有效获取关注语义信息的正确特征,在编码阶段加入注意力模块机制,使网络模型在学习过程中只关注它所需要关注的点,提高图像分割精度,达到良好的分割效果。最后,在网络模型训练过程中引入 BCE loss( Binary Cross Entropy loss) 和 Dice loss 损失函数相结合,加快网络的快速收敛,对模型更好的优化,以此提高模型的分割精度。结果通过在数据集 PASCAL VOC2012 实验验证表明,该算法的分割精度提高了 2. 82 个百分点,参数量降低了 14. 46 M。同时,数据集 Cityscapes 的实验结果也验证了该算法的优越性。结论优化后的 DeeplabV3+网络模型提高网络模型性能。

应用于交通标志的单步多目标检测方法研究

杜云龙 , 强俊 , 王洪铭 , 肖光磊 , 孙宇

2025, 42(1):64-71.

摘要 (842) HTML (0) PDF 6.96 M (588) 评论 (0) 收藏

摘要:目的针对自然场景下交通标志检测存在的小目标精度低和目标特征信息不足等问题,提出一种使用残差网络( Residual Network, ResNet) 和注意力机制 ( Attention Mechanism) 的单步多目标检测算法 SSD ( Single Shot MultiBox Detector) ,经过残差网络和注意力机制提取的特征向量输送到一个轻量、高效的特征融合模块中,最后将输出的 feature map 送到检测器中进行检测,从而提升交通标志检测的正确率。方法首先,利用残差模块将特征进行 1×1 降维再 3×3 升维,然后将恒等映射和残差部分生成的特征图进行逐像素相加;其次,将 CBAM( Convolutional Block Attention Module) 引入到残差模块 Conv4_x 输出的特征图上,然后与残差模块 Conv2_x,Conv3_x 输出的特征图一起输入到高效的特征融合模块中进行特征融合,最后将融合后的特征图送入模型中检测以实现对交通标志的识别。结果通过仿真实验验证,改进后的单步多目标检测算法 SSD 在中国交通标志检测数据集上进行检测的平均精度为 90. 55%,能够有效地提取小目标特征的信息。相较于主流算法 CenterNet、YOLOv3、YOLOv4、Faster R - CNN、SSD 分别提高了 2. 57%、3. 4%、2. 79%、3. 8%、4. 93%。结论优化后的目标检测方法相较于其他检测方法提取到了更多的特征信息,达到了更高的检测精度,在交通标志检测中具有良好的实用性和有效性。

基于自注意力机制与 1D-CNN 的变压器故障诊断方法

刘国柱

2025, 42(1):72-78.

摘要 (1019) HTML (0) PDF 4.39 M (634) 评论 (0) 收藏

摘要:目的变压器是电力系统中重要的设备,其发生故障时能够被有效地判别出故障类别,使得电力检修效率提升,这对电网的安全运行具有重要意义。针对电网电力检修中出现的变压器故障判别精度不足这一问题,提出了基于自注意力机制与 1D-CNN 的变压器故障诊断方法。常规卷积在处理 DGA 气体样本数据时容易损失特征信息,导致故障诊断的准确率偏低,论文将自注意力机制与 1D-CNN 结合,有效改善了上述问题,提高了变压器故障诊断的准确率和可靠性。方法为减少卷积网络提取到的特征提取信息在模型层间传播时造成的损失,论文在 1D- CNN 的基础上使用 LeakyReLU 函数替代原模型中的 ReLU 激活函数,相比于 ReLU 激活方式下很多神经元都没有被激活,LeakyReLU 可以降低模型的稀疏性,使得网络特征信息多样性增加。自注意力机制可实现对变压器油中溶解气体数据的特征信息加权处理,实现了有效特征信息增强作用,采用动态衰减学习率策略对优化器进行优化。结果所提的方法损失率可降低至 0. 078,相比于无动态衰减学习率和 ReLU 激活方式,损失率分别降低了 44. 7%和 38. 6%;诊断准确率可达到 93. 79%,较 1D-CNN 和 GOA-BP 方法诊断准确率提高了 0. 36%和 2. 12%。结论算例仿真验证了所提方法的有效性和优越性,表明基于自注意力机制与 1D-CNN 的变压器故障诊断方法能有效提高诊断的准确率,降低模型的损失率。

基于稀疏化卷积网络剪枝的火焰图像识别方法

颜佳文 , 林献坤 , 潘溢洲

2025, 42(1):79-84.

摘要 (629) HTML (0) PDF 3.58 M (634) 评论 (0) 收藏

摘要:目的野火预警大多采用烟雾或红外传感器检测,且这些传感器在大型开放式空间下,容易受到环境的影响,从而很难进行开放场所的精准火灾预警,而优越的火焰检测模型往往存在过多的参数量,且存在结构冗余的问题,基于此问题,提出一种改进的 VGG 深度卷积网络架构。方法以映射变换为基础,进行像素值调整,在保证分类精度的前提下,采用 L1 正则化保证稀疏性,并基于 BN 层进行结构化剪枝,从而降低模型储存数据量,得到精简的模型。结果大量的仿真试验结果表明:该方法在不同剪枝比例下,在野火架构数据集上,检测与勘误率依然能够保持高的准确精度,改进的模型在剪枝率为 80%时,准确率达到了 95. 29%,提升了 0. 92%,并有效解决了模型过参数化的问题;通过不同的微调训练,模型精度略微超过没有进行剪枝时的模型,且在参数量上少了近 20 倍,并随着剪枝率的上升,检测效果在原有精度水平上无明显下降,甚至略高于原始模型精度,这说明在训练过程中,有大量的冗余权重。结论该方法可以大幅度缩减模型的储存量,并可保证较高的分类精度,具有较好的实际应用意义,可以应用在神经网络存储计算能力较弱的嵌入式设备中。

基于混合域注意力 ResNeSt 的结肠息肉分割模型

周孟然 , 刘思怡 , 卞凯 , 王宁 , 高立鹏

2025, 42(1):85-93.

摘要 (765) HTML (0) PDF 4.45 M (583) 评论 (0) 收藏

摘要:目的针对因息肉大小不一,边界不清,光线影响,在图片中所占比例较小导致的分割精度不高的问题,提出了一种改进的 U 型结构网络 BMR-Net。方法该模型的框架为编码器-解码器形式,在编码器部分采用 ResNeSt 提取特征,在计算成本增加很少的情况下改善了特征提取效果; 在编码器和解码器之间设计边界预测生成模块 ( BPGM) 来聚合高层特征并加入改良空间金字塔池化模块,在其中引入注意力机制,提升多尺度信息融合效果,获得更精确的全局特征图表示;针对不清晰的边缘部分采用反向注意力模块,删除已预测区域,校正边界信息。结果在 CVC-ClinicDB、Kvasir - SEG、CVC - ColonDB、 ETIS - Larib、 EndoScene 数据集上进行测试, mDice 值分别达到了 0. 930、0. 903、0. 743、0. 712、0. 874。结论该方法分割性能和泛化性能均优于其他的先进方法,并且可以更加精确和完整地分割出小尺寸息肉,可以为结肠息肉患者提供早期预后信息。

面向特征演化数据流的增量学习方法研究

陈燕菲 , 刘三民

2025, 42(1):94-104.

摘要 (837) HTML (0) PDF 4.18 M (655) 评论 (0) 收藏

摘要:目的特征演化数据流的特征空间随时间推移而动态变化,传统增量学习方法囿于固定特征空间的假设,无法直接应用于特征演化数据流的学习场景,因此针对挖掘特征演化数据流时面对的分类模型与当前数据特征不匹配而失效、模型预测性能受噪声干扰等问题,提出了一种面向特征演化数据流的增量学习方法。方法首先,通过引入模糊隶度函数并结合增量孪生支持向量机模型,鲁棒地训练与更新分类器;当出现新特征时,重新训练新分类器,同时结合局部线性加权回归算法拟合新旧特征之间的映射关系,从而在旧特征消失时,利用所学到的映射关系,将已训练好的旧分类器投影至新特征空间继续更新;最后,结合两种不同的集成策略以合并新旧两分类器实现共同预测。结果通过大量仿真实验,所提方法分类准确率相较于对比方法提升了 0. 3% ~ 21. 7%;在含不同信噪比数据集上,分类模型性能整体优于对比模型,并随着人工增加噪声比例,模型分类效果受负面影响较小。结论所提方法得以构建性能高效稳定的分类模型,在提升模型预测精度的同时能减少噪声对分类性能的干扰,增强了模型对特征演化数据流自适应学习能力。

基于改进 SIFT 算法的三维重建技术研究

李冉 , 杨超宇

2025, 42(1):105-111.

摘要 (899) HTML (0) PDF 5.83 M (608) 评论 (0) 收藏

摘要:目的针对三维重建过程中尺度不变特征转换( Scale Invariant Feature Transform,SIFT) 算法对噪声敏感,导致特征点提取和匹配的错误和运行时间长等问题,提出一种改进的 SIFT 算法,旨在提高特征点提取的准确性和减少运行时间。方法改进的 SIFT 算法首先对图像的像素点进行遍历,对于每个目标像素点,将其与其 8 邻域内的像素点进行灰度值比较。如果相邻像素点的灰度值与目标像素点的灰度值之差小于设定的阈值,则将该相邻像素点标记为相似点;根据相似点的数量,确定目标像素点是否为兴趣点,如果相似点的数量满足特定条件,则将目标像素点判定为兴趣点,然后在以兴趣点为中心的区域内使用 SIFT 算法提取特征点。结果在不同的阈值设置和对不同尺寸图像进行对比实验中,结果显示改进的 SIFT 算法相较于传统的 SIFT 算法,在特征点提取正确率上有约 10% 左右的提升,运行时间节约 25%左右。结论实验结果表明:本文提出的改进 SIFT 算法通过引入对噪声的抑制和对兴趣点的筛选,能够有效提升特征点的提取质量,以及特征点提取和匹配中的错误率,并且显著降低运行时间。

基于公共项共享的改进双三次插值算法电路研究

完海 , 张肖强 , 杨帆 , 郑辛星

2025, 42(1):112-122.

摘要 (714) HTML (0) PDF 9.15 M (671) 评论 (0) 收藏

摘要:目的针对传统双三次插值缩放算法硬件资源消耗大、计算速度相对较慢的问题,提出一种利用公共项共享的改进双三次插值算法硬件电路优化方法。方法该方法涉及构建双三次插值的插值系数计算公式,采用公因式消除法简化公式,目的是提取插值系数计算中的公共成分和中间插值系数;随后,在硬件电路实施过程中,将这些公共成分合并起来,进行综合计算;最终,通过对中间插值系数的表述和共享组件的整合,构建出一个优化的双三次插值电路。结果理论分析表明:乘法器数量从 36 个减少到 20 个,从而降低了硬件资源消耗;所构建的双三次插值电路使用硬件描述语言,并使用 AMD Xilinx 的 Vivado 开发工具进行综合。实验结果表明:优化后的双三次插值电路在基础层面上减少了 8%的 LUT( 查找表) 、2%的 LUTRAM 和 14%的 DSP( 数字信号处理器) 资源。结论事实证明:与现有优化技术相比,基于公因子共享的双三次插值算法优化方法能更有效地减少硬件电路资源消耗,同时保持图像缩放质量。

基于 EEG-TCNet 的运动想象脑电识别方法

李卫校a , 凌六一a , b

2025, 42(1):123-128.

摘要 (1021) HTML (0) PDF 1.74 M (757) 评论 (0) 收藏

摘要:目的针对以深度学习为解码的方法在运动想象脑电信号识别过程中仅对原始的运动想象脑电信号进行特征提取而不进行样本扩充和往往采用单一尺度的卷积对多频段的运动想象脑电信号进行特征提取,无法充分发掘各频段之间相关性的问题,在主流 EEG-TCNet 解码方法的基础上提出了一种样本扩充和多尺度的解码方法。方法首先,对运动想象脑电信号进行分割,以增加数据集样本数,将运动想象脑电信号等间隔下采样成 3 个不同的子序列,每个子序列都含有与原始运动想象脑电信号相同的数据特征;其次,使用 EEGNet 对每个子序列进行特征提取, 对不同的子序列使用不同尺度的 EEGNet 以便提取不同频段的特征;之后,对每个经过 EEGNet 提取后的子序列采用一种基于卷积滑动的方法再进分割,充分挖掘每个子序列潜在的信息;再次,将每个处理后的子序列传入到时间卷积网络进行特征提取和降维;最后,对所有处理后的子序列进行拼接、平均操作,并传入到全连接层进行识别。结果在公开的 BCI 竞赛数据集 IV-2a 上进行验证,所做出改进的网络相对于 EEG-TCNet、EEGNet 的解码准确度分别有 5. 19%和 7. 7%的提升。结论证明所做出改进的网络在运动想象脑电信号识别任务中具有更理想的解码性能。

快速检索

卷期检索

友情链接