在将它们索引到 solr 之前,我需要对文档进行一些转换。但是文本来自各种资源,在索引之前很难进行转换,因为我必须调整几个程序来解析文件。我正在考虑在 solr 中对它们进行索引,提取文本字段,进行转换并再次重新索引。
我试过了 :
curl 'http://localhost:8983/solr/collection1/select?q=*&rows=20000&wt=xml&indent=true'
但输出是一个结果 xml 文件,而我正在寻找某种方法来提取带有诸如发布格式的字段的文档。这可能吗?我应该怎么做?
谢谢