text - 找到相对于所有文档的最上面的词

Question

我有大约 100.000 多个文本文档。我想找到一种方法来回答这个（有点模棱两可）的问题：

对于给定的文档子集，与完整文档集相关的n 个最常见的词是什么？

我想介绍趋势，例如。显示类似“这些是给定日期范围内特别热门的主题”的词云。（是的，我知道这是一个过度简化：单词！=主题等）

似乎我可以计算出所有文档中所有单词的tf-idf值，然后进行一些数字运算，但我不想在这里重新发明任何轮子。

我计划可能使用Lucene或Solr来索引文档。他们会帮我解决这个问题吗？怎么做？或者您会推荐一些其他工具吗？

score 1 · Accepted Answer

这个 Stack Overflow 问题还涵盖了 Lucene 的一般术语频率。

如果您还没有使用 Lucene，那么您所说的操作是 Hadoop 的一个经典入门问题（“字数”问题）。

1 回答 1