scipy - tf-idf - 访问大型稀疏 scipy 矩阵并获得最高值

翻译自：https://stackoverflow.com/questions/19964966 2013-11-13T21:41:46.870

610 次

对于 tfidf 结果矩阵，我想获得最高的 tfidf 值。我看到了如何为 tfidf 矢量化器设置最大特征量，但这是针对具有最高 tf 计数的单词。我仍然想获得 tfidf 的高值，其中可能包括低 tf 的单词。我查找的一个想法是做类似的事情tf_idf_matrix.sum(axis=0)，这将总结列。这在我的代码中有效，但由于有 113k 列，打印不会全部显示。如果我可以使用类似argsort()访问前 K 列总和值的方法，那将很有帮助。

这个问题源于我在这里的原始问题。

原因是我想知道哪些词是我应该仔细观察的，而不一定是频率最高的词。我还想了解“异常”，即可能不会出现在所有或许多文档/帖子中但可能在一个或更少文档中具有高 tfidf 的单词。如果我应该考虑其他方法，我想解释一下。

谢谢

scipy - tf-idf - 访问大型稀疏 scipy 矩阵并获得最高值

0 回答 0

Related

Reference