我正在使用 Luke 查看 Lucene 索引。有一个名为“排名”的列。它的实际意义是什么?我的猜测是 Rank 意味着出现的次数,而 Rank 数字越大意味着这个词越重要。但我不明白的是它是一个全文搜索。如果我搜索“apple”,将返回所有“apple”索引,这与“apple”的排名无关。我理解有误吗?如果不是,Rank 列的实际用途是什么?
当我检查索引时,那里似乎有一些“噪音”,例如字符“o”的等级数非常高。这是否意味着这个指数不好?我应该如何解决它?提前致谢。
“排名”是一个字段中一个术语的频率。这并不意味着它更重要。事实上,最不常见的术语通常是索引中最重要的。但是了解索引中最常见的术语有时对于分析或调试目的很重要(例如,请参阅这个问题)。
你有很多像'o'这样的术语并不意味着你的索引很糟糕。检查用于索引的标记器和分析器。一些分词器会去除标点符号上的单词。一些分析器会提取词干,并且通常会产生单字母词。有很多原因可以解释单字母术语的存在。
如果您在索引中看到很多不受欢迎的术语,您可能会考虑在索引时使用停用词过滤器。Lucene 为此提供了功能。