我是 pylucene 的新手,我正在尝试构建一个自定义分析器,它仅基于下划线标记文本,即它应该保留空格。示例:"Hi_this is_awesome" 应该被标记为 ["hi", "this is", "awesome"] 标记。
从各种代码示例中,我了解到我需要重写 CustomTokenizer 的 incrementToken 方法并编写一个 CustomAnalyzer,TokenStream 需要使用 CustomTokenizer 后跟一个 LowerCaseFilter 来实现相同的目的。
我在实现 incrementToken 方法和连接点时遇到了问题(通常如何使用标记器,分析器依赖于 TokenFilter,而 TokenFilter 依赖于 TokenStreams),因为 pylucene 上可用的文档很少。