cluster-analysis - 基于自动编码器的无监督聚类

Question

我正在尝试使用编码器对数据集进行聚类，由于我是该领域的新手，所以我不知道该怎么做。我的主要问题是如何定义损失函数，因为数据集没有标记并且知道我所看到的从参考书目中，他们将所需输出和预测输出之间的距离定义为损失函数。我的问题是，因为我没有所需的输出，我应该如何实现这个？

score 0 · Accepted Answer

你可以使用自动编码器来预训练你的卷积层，就像我在问题中描述的那样，使用卷积自动编码器来处理图像

如您所见，损失函数是具有度量精度和骰子系数的 Adam，我认为您只能使用准确度，因为骰子系数是特定于图像的

我不确定它将如何为您工作，因为您没有提供如何将参考书目列表转换为矢量的想法，也许您将为参考书目 ID 创建一个列表，按它们之间的余弦距离排序

例如，您可以为数据集中的每个参考文献使用一组与上述参考书目列表中每个项目的余弦距离的向量，并将其用作自动编码器的输入

在训练编码器之后，您可以从模型输出中删除解码器部分，并将其用作无监督聚类算法之一的输入，例如 k-mean。您可以在此处找到有关它们的详细信息

1 回答 1