我们有一个数字除以破折号的故障单格式,即 n-nnnnnnn
链接 http://lucidworks.lucidimagination.com/display/solr/Tokenizers(在 Standard Tokenizer 和 Classic Tokenizer 的部分中)暗示在支持 Unicode 标准附件 UAX#29 之前和之后:
单词在连字符处拆分,除非单词中有数字,在这种情况下,不拆分标记并且保留数字和连字符。
我们的 Solr 安装仅使用 StandardTokenizerFactory,但这种故障单格式正在破折号处的查询中拆分。我是 solr/lucene 的新手。我已经下载了 3.6.1 的代码,而评论暗示相反(除非虚线数字仍被视为数字)。我无法遵循 Lex 处理:
- 生成的令牌有以下类型:
- <ALPHANUM>:字母和数字字符序列
- <NUM>:一个数字
- <SOUTHEAST_ASIAN>:来自南部和东南部的字符序列
- 亚洲语言,包括泰语、老挝语、缅甸语和高棉语
- <IDEOGRAPHIC>:单个 CJKV 表意字符
- <平假名>:一个平假名字符
谁能澄清一下谢谢。