2

对于 tfidf 结果矩阵,我想获得最高的 tfidf 值。我看到了如何为 tfidf 矢量化器设置最大特征量,但这是针对具有最高 tf 计数的单词。我仍然想获得 tfidf 的高值,其中可能包括低 tf 的单词。我查找的一个想法是做类似的事情tf_idf_matrix.sum(axis=0),这将总结列。这在我的代码中有效,但由于有 113k 列,打印不会全部显示。如果我可以使用类似argsort()访问前 K 列总和值的方法,那将很有帮助。

这个问题源于我在这里的原始问题。

原因是我想知道哪些词是我应该仔细观察的,而不一定是频率最高的词。我还想了解“异常”,即可能不会出现在所有或许多文档/帖子中但可能在一个或更少文档中具有高 tfidf 的单词。如果我应该考虑其他方法,我想解释一下。

谢谢

4

0 回答 0