1

我在用数字和符号索引项目名称方面遇到问题。我的数据示例如下所示:

ANGLE BARS   ORANGE - 4.0MM 2 - 1/2"
B.I SQUARE TUBING     2" X 3"
B.I. PIPE S-40   10MM 3/8"
B.I SQUARE TUBING     1" X 2"
PLYWOOD   MARINE 3/4X4X8
PLYWOOD   STA. CLARA 1/8X4X8
PLYWOOD   STA. CLARA 3/16X4X8

我想在不删除符号的情况下将我的数据标记为白色或尾随空格,因为这些符号非常重要。这样每当我搜索“plywood sta. clara”、“bi square 2”X 3“”或“angle orange 2 - 1/2”时都会给我一个结果。我尝试使用空白分析器,但符号被删除。我也尝试了standardanalyzer,但停用词和符号也被删除了。最好的分析仪是什么?

4

2 回答 2

3

您可以通过编写正则表达式或创建自定义分析器来使用PatternAnalyzer 。

于 2012-02-15T08:52:54.980 回答
0

尝试使用 org.apache.lucene.analysis.miscellaneous.PatternAnalyzer。您可以提供正则表达式来定义标记分隔符。

于 2012-02-15T08:46:19.047 回答