python - nltk.cluster 使用稀疏表示

Question

我对 Python 很陌生。

我正在尝试使用 nltk.cluster 包将简单的 kMeans 应用于 word-document 矩阵。虽然它在矩阵是 numpy 类数组对象的列表时有效，但我无法使其适用于稀疏矩阵表示（例如 csc_matrix、csr_matrix 或 lil_matrix）。

我找到的所有信息是：

请注意，向量必须使用 numpy 类数组对象。nltk_contrib.unimelb.tacohn.SparseArrays 可在需要时用于提高效率

我不明白这是什么意思。任何人都可以在这件事上帮助我吗？

提前致谢！

score 1 · Accepted Answer

这意味着当你传入输入向量时，你可以传入一个 numpy.array() 或一个 nltk_contrib.unimelb.tacohn.SparseArrays。

我建议您查看包nltk_contrib.unimelb.tacohn以找到 SparseArrays 类。然后尝试使用此类创建您的数据，然后再将其传递给 nltk.cluster

1 回答 1