摘要:目的 基于深度神经网络的聚类模型由于能从原始数据中学习到有效特征,在各种无监督应用中受到了广 泛关注。 针对现有的基于自编码的聚类模型没有生成能力,且通常以高斯分布作为先验,限制了对多模态特征的 表达能力问题,提出一种深度嵌入聚类模型———DVADEC( Deep Embedded Clustering based on Dirichlet Variational Autoencoder) ,该模型将狄利克雷变分自编码器的表征学习能力和嵌入聚类的聚类能力结合到一个统一的模型中。 方法 首先,在预训练阶段,利用狄利克雷分布的多模态特性,将其作为先验分布来指导隐变量的学习过程;然后, 将训练好的权重加载到聚类模型中,并通过在隐藏空间中嵌入聚类层来进行类别分配;最后,通过交替优化目标函 数来微调网络,以提升聚类结果。 结果 实验结果显示:DVADEC 模型在 4 个基准数据集上展现出较好的聚类性能, 其中在 MNIST 图像数据集上达到了 97. 13%的准确率,在 REUTER-10k 文本数据集上达到了 80. 1%的准确率。 另 外,可视化结果显示潜在特征具有明显的可分性,且根据特征生成的样本轮廓清晰、平滑多样。 结论 DVADEC 模 型融合了生成能力和多模态特征的表达能力,并显著提高了特征提取和聚类性能,为数据挖掘和模式识别领域提 供了新的思路和技术手段。