0

我想从 html 页面中提取相关关键字。

我已经删除了所有 html 内容,将文本拆分为单词,使用词干分析器并从 lucene 中删除了出现在停用词列表中的所有单词。

但是现在我仍然有很多基本的动词和代词作为最常用的词。

在 lucene 或 snowball 或其他任何地方是否有某种方法或一组词来过滤掉所有这些东西,例如“I, is , go, going, am, it, were, we, you, us,....”

4

3 回答 3

4

您正在寻找“停用词”一词。对于 Lucene,这是内置的,您可以在 StopWordAnalyzer.java 中添加它们(请参阅http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/

于 2011-09-23T18:23:47.067 回答
2

这似乎是逆文档频率的一个非常简单的应用。如果你有一个很小的语料库,比如 10,000 个网页,你可以计算每个单词出现在文档中的概率。然后选择一个您认为单词开始变得有趣或有内容的阈值,并排除该阈值之前的单词。

或者,这个列表看起来不错。 http://www.lextek.com/manuals/onix/stopwords1.html

于 2011-09-23T17:47:08.180 回答
1

Rtm包通过 R 为许多常见的 NLP 任务提供接口,并具有到 Weka 的接口。这可能值得一试。文档在这里

在更仔细地查看您的问题后,您可能正在寻找包中的removeStopWords()功能tm

于 2011-09-23T17:51:04.200 回答