0

我有大约 100.000 多个文本文档。我想找到一种方法来回答这个(有点模棱两可)的问题:

对于给定的文档子集,与完整文档集相关的n 个最常见的词是什么?

我想介绍趋势,例如。显示类似“这些是给定日期范围内特别热门的主题”的词云。(是的,我知道这是一个过度简化:单词!=主题等)

似乎我可以计算出所有文档中所有单词的tf-idf值,然后进行一些数字运算,但我不想在这里重新发明任何轮子。

我计划可能使用LuceneSolr来索引文档。他们会帮我解决这个问题吗?怎么做?或者您会推荐一些其他工具吗?

4

1 回答 1

1

这应该工作: http: //lucene.apache.org/java/3_1_0/api/contrib-misc/org/apache/lucene/misc/HighFreqTerms.html

这个 Stack Overflow 问题还涵盖了 Lucene 的一般术语频率。

如果您还没有使用 Lucene,那么您所说的操作是 Hadoop 的一个经典入门问题(“字数”问题)。

于 2011-09-11T21:30:31.117 回答