lucene - 删除常用英语单词策略

Question

我想从 html 页面中提取相关关键字。

我已经删除了所有 html 内容，将文本拆分为单词，使用词干分析器并从 lucene 中删除了出现在停用词列表中的所有单词。

但是现在我仍然有很多基本的动词和代词作为最常用的词。

在 lucene 或 snowball 或其他任何地方是否有某种方法或一组词来过滤掉所有这些东西，例如“I, is , go, going, am, it, were, we, you, us,....”

score 4 · Accepted Answer

您正在寻找“停用词”一词。对于 Lucene，这是内置的，您可以在 StopWordAnalyzer.java 中添加它们（请参阅http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/）

score 2 · Accepted Answer

这似乎是逆文档频率的一个非常简单的应用。如果你有一个很小的语料库，比如 10,000 个网页，你可以计算每个单词出现在文档中的概率。然后选择一个您认为单词开始变得有趣或有内容的阈值，并排除该阈值之前的单词。

score 1 · Accepted Answer

R的tm包通过 R 为许多常见的 NLP 任务提供接口，并具有到 Weka 的接口。这可能值得一试。文档在这里

在更仔细地查看您的问题后，您可能正在寻找包中的removeStopWords()功能tm。

3 回答 3