我将 Crate 用于德国新闻网站,并广泛使用全文搜索(通常效果很好)。但是我想知道停用词的用法。我想尽量减少这种情况,因为搜索速度很快,所以我不太担心性能。这是可取的吗?并且:默认情况下实际上使用了哪些停用词——某处是否有内置停用词列表?
问问题
127 次
1 回答
2
内置词实际上来自 lucene,并且位于
lucene-analyzers-common*.jar
crate tarball 的 lib 目录内的文件中。
如果您提取 jar 文件的内容,您会发现一个名为的文件
german_stop.txt
,其中包含所有德语停用词。
lucene 源代码中还有一组单词被标记为已弃用,所以我认为它不再使用。这些话是:
"einer", "eine", "eines", "einem", "einen",
"der", "die", "das", "dass", "daß",
"du", "er", "sie", "es",
"was", "wer", "wie", "wir",
"und", "oder", "ohne", "mit",
"am", "im", "in", "aus", "auf",
"ist", "sein", "war", "wird",
"ihr", "ihre", "ihres",
"als", "für", "von", "mit",
"dich", "dir", "mich", "mir",
"mein", "sein", "kein",
"durch", "wegen", "wird"
我认为默认值已经足够好了,除非您遇到某些特定单词的麻烦,否则我认为没有理由调整停用词。
于 2014-02-21T22:49:11.407 回答