我正在将一些现有的索引从 Lucene 移动到 Solr。我们在 Lucene 的输入文本上应用以下逻辑:
- 小写
- replaceDictionaryWords(用其他词替换一些特定的词,例如用“htz”替换“赫兹”)
- 仅提取字符和数字
- 修剪输出字符串
- 用 \s 替换 \s+
- 使用 java.lang.String#split(in) 方法拆分
- 对于每个拆分的文本,将结果词除以以下模式:“ABCDEF”=> ABC BCD CDE DEF(除以 3、2)
我不想编写可能存在的 Tokenizer。
所以,我在这里查看http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters但错过了。