0

我对 Python 很陌生。

我正在尝试使用 nltk.cluster 包将简单的 kMeans 应用于 word-document 矩阵。虽然它在矩阵是 numpy 类数组对象的列表时有效,但我无法使其适用于稀疏矩阵表示(例如 csc_matrix、csr_matrix 或 lil_matrix)。

我找到的所有信息是:

请注意,向量必须使用 numpy 类数组对象。nltk_contrib.unimelb.tacohn.SparseArrays 可在需要时用于提高效率

我不明白这是什么意思。任何人都可以在这件事上帮助我吗?

提前致谢!

4

1 回答 1

1

这意味着当你传入输入向量时,你可以传入一个 numpy.array() 或一个 nltk_contrib.unimelb.tacohn.SparseArrays。

我建议您查看包nltk_contrib.unimelb.tacohn以找到 SparseArrays 类。然后尝试使用此类创建您的数据,然后再将其传递给 nltk.cluster

于 2011-02-22T23:53:07.113 回答