例子:
Doc {
Citations: {
0: cite0,
1: cite1,
2: cite2,
...
n: citeN
}
}
我想根据引用的相似性对文档进行聚类,但是每个文档都会有很多引用。我在这里的困惑是......在这种情况下,我如何为数据集构建特征向量以将其输入到我的聚类工具包中。
我正在考虑让 column 成为引文,如果该文档具有该引文,则值为 1。
附言。我在机器学习方面的背景很薄弱——我正在阅读我的讲义,但大多数人都没有涉及到这类问题><提前谢谢大家!