python - 使用 Doc2vec 后如何解释集群结果？

Question

我正在使用 doc2vec 将我的追随者的前 100 条推文转换为矢量表示（比如 v1.....v100）。之后，我使用向量表示来进行 K-Means 聚类。

model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2)

我可以看到集群 0 由一些值（比如 v10、v12、v23 ......）支配。我的问题是这些 v10、v12 ... 等代表什么。我可以推断出这些特定列聚集了文档的特定关键字吗？

score 2 · Accepted Answer

不要使用单个变量。由于这些嵌入的训练方式，它们应该只一起分析。

首先，找到

与您的质心最相似的文档向量以查看典型的集群成员
用于描述集群的典型词嵌入中最相似的术语向量
注意距离，看看你的合身程度。

score 0 · Accepted Answer

集群本身并不意味着任何特定的东西。您可以拥有任意数量的集群，所有集群算法都会尝试将所有向量分布在这些集群中。如果您知道所有推文并且知道您希望将它们分成多少个不同的主题，请尝试清理它们或在其中包含特征，以便聚类算法可以使用这些将它们分离到您选择的集群中。

此外，如果您的意思是主题建模，那与聚类不同，您也应该查一下。

score 0 · Accepted Answer

这些值表示您要在集群中表示的各个推文（或文档）的坐标。我假设 v1 到 v100 代表推文 1 到 100 的向量，否则这是没有意义的。所以如果假设集群 0 具有 v1、v5 和 v6，这意味着推文 1、5 和 6 具有向量表示 v1， v5 和 v6（或以向量 v1、v5 和 v6 为表示的推文）分别属于集群 0。

python - 使用 Doc2vec 后如何解释集群结果？

3 回答 3

Related

Reference