2

Lucene 的标准分词器会删除空格和空行吗?我一直在阅读 API(StandardTokenizer),但没有指定。也许标记器默认情况下会这样做,我不知道。

4

1 回答 1

1

是的。Lucene 标记器从文档中获取可索引的术语,其中不包括空格。不过,它们确实在原始文档中保留了令牌的偏移量。

这记录在以下文档中StandardTokenizer

  • 在标点符号处拆分单词,删除标点符号。

(空格是标点符号。)

于 2012-05-23T07:43:15.167 回答