Lucene 的标准分词器会删除空格和空行吗?我一直在阅读 API(StandardTokenizer),但没有指定。也许标记器默认情况下会这样做,我不知道。
问问题
1093 次
1 回答
1
是的。Lucene 标记器从文档中获取可索引的术语,其中不包括空格。不过,它们确实在原始文档中保留了令牌的偏移量。
这记录在以下文档中StandardTokenizer
:
- 在标点符号处拆分单词,删除标点符号。
(空格是标点符号。)
于 2012-05-23T07:43:15.167 回答