我在 Solr 中创建了一个用于查找命名实体的自定义 Tokenizer。我希望能够使用此信息来填充 lucene/solr 文档中的单独字段。
例如,我想用从文本中提取的所有位置名称填充一个名为“位置”的多值字段。为了提取位置,首先对文本进行标记以分离单词并确定哪些标记是位置。在这个过程之后,我想为标记器发出标记,但也用从文本中提取的所有位置名称填充字段“位置”。
根据我所做的研究,无法从 Tokenizer 或 TokenizerFactory 访问 SolrDocument 对象,因此无法从此处填充字段。
到目前为止,我提出的解决方案是创建一个自定义 UpdateRequestProcessorFactory 来处理文本并提取字段,然后 Tokenizer 再次处理文本以获取令牌。我想找到一种方法来完成这项工作并且只处理一次文本。