cluster-analysis - 构建特征向量来学习集群

Question

例子：

Doc {
  Citations: {
      0: cite0,
      1: cite1,
      2: cite2,
      ...
      n: citeN
    }
}

我想根据引用的相似性对文档进行聚类，但是每个文档都会有很多引用。我在这里的困惑是......在这种情况下，我如何为数据集构建特征向量以将其输入到我的聚类工具包中。

我正在考虑让 column 成为引文，如果该文档具有该引文，则值为 1。

附言。我在机器学习方面的背景很薄弱——我正在阅读我的讲义，但大多数人都没有涉及到这类问题><提前谢谢大家！

score 1 · Accepted Answer

构建特征向量的一种简单方法是创建邻接矩阵（比如 A）。特征是二进制的。

每行代表被引文献，每列代表被引文献。因此，如果仅Document1被引用Document3，则元素 A(1,3)=1 并且该行的其余元素为 0。

如果您要处理太多文档，这可能不是有效的方法。如果您有 N 个文档，则矩阵大小为 NxN。

如果您正在编写自己的聚类算法，请使其接受更紧凑的形式（请参阅邻接列表）。

1 回答 1