0

我正在使用 doc2vec 将我的追随者的前 100 条推文转换为矢量表示(比如 v1.....v100)。之后,我使用向量表示来进行 K-Means 聚类。

model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2)

我可以看到集群 0 由一些值(比如 v10、v12、v23 ......)支配。我的问题是这些 v10、v12 ... 等代表什么。我可以推断出这些特定列聚集了文档的特定关键字吗?

4

3 回答 3

2

不要使用单个变量。由于这些嵌入的训练方式,它们应该只一起分析。

首先,找到

  1. 与您的质心最相似的文档向量以查看典型的集群成员
  2. 用于描述集群的典型词嵌入中最相似的术语向量
  3. 注意距离,看看你的合身程度。
于 2017-08-28T18:28:51.067 回答
0

集群本身并不意味着任何特定的东西。您可以拥有任意数量的集群,所有集群算法都会尝试将所有向量分布在这些集群中。如果您知道所有推文并且知道您希望将它们分成多少个不同的主题,请尝试清理它们或在其中包含特征,以便聚类算法可以使用这些将它们分离到您选择的集群中。

此外,如果您的意思是主题建模,那与聚类不同,您也应该查一下。

于 2017-08-28T12:28:21.727 回答
0

这些值表示您要在集群中表示的各个推文(或文档)的坐标。我假设 v1 到 v100 代表推文 1 到 100 的向量,否则这是没有意义的。所以如果假设集群 0 具有 v1、v5 和 v6,这意味着推文 1、5 和 6 具有向量表示 v1, v5 和 v6(或以向量 v1、v5 和 v6 为表示的推文)分别属于集群 0。

于 2017-08-28T12:34:09.087 回答