0

我正在将一些现有的索引从 Lucene 移动到 Solr。我们在 Lucene 的输入文本上应用以下逻辑:

  1. 小写
  2. replaceDictionaryWords(用其他词替换一些特定的词,例如用“htz”替换“赫兹”)
  3. 仅提取字符和数字
  4. 修剪输出字符串
  5. 用 \s 替换 \s+
  6. 使用 java.lang.String#split(in) 方法拆分
  7. 对于每个拆分的文本,将结果词除以以下模式:“ABCDEF”=> ABC BCD CDE DEF(除以 3、2)

我不想编写可能存在的 Tokenizer。

所以,我在这里查看http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters但错过了。

4

2 回答 2

1
  1. 小写过滤器
  2. 同义词过滤器
  3. StandardTokenizerPatternTokenizer
  4. 修剪过滤器
  5. 模式替换过滤器
  6. WordDelimiterFilter ?
  7. NGramTokenFilter(您可能需要为此编写一个工厂)。

但是如果你已经有一个现有的 Lucene 分析器,你可以让 Solr 使用它

于 2012-05-14T19:36:26.690 回答
0

试试OpenPipeline。它专为预处理输入搜索软件的文档而设计。

于 2012-05-14T16:24:06.087 回答