我想从 html 页面中提取相关关键字。
我已经删除了所有 html 内容,将文本拆分为单词,使用词干分析器并从 lucene 中删除了出现在停用词列表中的所有单词。
但是现在我仍然有很多基本的动词和代词作为最常用的词。
在 lucene 或 snowball 或其他任何地方是否有某种方法或一组词来过滤掉所有这些东西,例如“I, is , go, going, am, it, were, we, you, us,....”
我想从 html 页面中提取相关关键字。
我已经删除了所有 html 内容,将文本拆分为单词,使用词干分析器并从 lucene 中删除了出现在停用词列表中的所有单词。
但是现在我仍然有很多基本的动词和代词作为最常用的词。
在 lucene 或 snowball 或其他任何地方是否有某种方法或一组词来过滤掉所有这些东西,例如“I, is , go, going, am, it, were, we, you, us,....”
您正在寻找“停用词”一词。对于 Lucene,这是内置的,您可以在 StopWordAnalyzer.java 中添加它们(请参阅http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/)
这似乎是逆文档频率的一个非常简单的应用。如果你有一个很小的语料库,比如 10,000 个网页,你可以计算每个单词出现在文档中的概率。然后选择一个您认为单词开始变得有趣或有内容的阈值,并排除该阈值之前的单词。
或者,这个列表看起来不错。 http://www.lextek.com/manuals/onix/stopwords1.html