1

例子:

Doc {
  Citations: {
      0: cite0,
      1: cite1,
      2: cite2,
      ...
      n: citeN
    }
}

我想根据引用的相似性对文档进行聚类,但是每个文档都会有很多引用。我在这里的困惑是......在这种情况下,我如何为数据集构建特征向量以将其输入到我的聚类工具包中。

我正在考虑让 column 成为引文,如果该文档具有该引文,则值为 1。

附言。我在机器学习方面的背景很薄弱——我正在阅读我的讲义,但大多数人都没有涉及到这类问题><提前谢谢大家!

4

1 回答 1

1

构建特征向量的一种简单方法是创建邻接矩阵(比如 A)。特征是二进制的。

每行代表被引文献,每列代表被引文献。因此,如果仅Document1被引用Document3,则元素 A(1,3)=1 并且该行的其余元素为 0。

如果您要处理太多文档,这可能不是有效的方法。如果您有 N 个文档,则矩阵大小为 NxN。

如果您正在编写自己的聚类算法,请使其接受更紧凑的形式(请参阅邻接列表)。

于 2013-02-23T07:40:17.690 回答