在我的分析器链中,ShingleFilter 出现在停用词过滤器之后。如文档中所述, ShingleFilter 通过插入填充标记(带有术语文本“_”的标记)来处理 > 1 的位置增量。
For example : "please divide this sentence into biword shingles"
Shingles of size 2 : please divide, divide _, _ sentence, sentence _, _ biword, biword shingles (assuming that "this, "into" are stopwords)
我想用填充标记消除那些带状疱疹,即我想要的输出只包含:请除,双字带状疱疹。
我有一个专门的领域,用于处理最大 4 克的带状疱疹。由于这些停用词,所有方面的约束(或值)对于像“divide_sentence_”这样的填充物看起来毫无用处
请你指导我。
使用 Solr 4.4。
更新
我想在 StopFilter 配置中将 enablePositionIncrement 设置为 false。不确定这是否解决了问题,但 Lucene 4.4 不再支持。