0

我正在使用 Solr 服务器为工具提供搜索功能。我想知道 solr 是否提供了一种工具,可以让我在对某些文件进行索引之前对其进行格式化?更具体地说,我有一个包含大量数据的纯文本文件!我想在索引 xml 文件之前将它们转换为 xml 格式。例如

    some data! some more data : more values 

我想将此示例行转换为类似

    <field 1>sample data </field 1>
    <field 2> some more data </field 2>  
    <field 3> more values  </field 3>

在使用 solr 单元对文件进行 iindex 之前,solr 是否为这种类型的转换提供了便利。它是否提供了我可以在我的 java 应用程序中实现的任何类或接口?

提前致谢!

4

2 回答 2

1

您是将数据推送到 Solr 还是可以通过 Solr 从源中提取数据?

如果您正在推进 Solr,那么您必须使用Update Request Processor。但是,我不知道任何会将数据拆分为多个字段的方法。你可能需要自己写一个。

如果您使用 DataImportHandler 从源中提取,它具有使用 RegexTransformer 将内容拆分为多个字段的内置支持

请求处理器和 DIH 都支持 JavaScript(可能还有其他 Java 脚本语言)转换器,因此您也可以编写自己的脚本以任何您想要的方式拆分数据。

其中一些是从 Solr 版本 4 开始的。这是一个需要牢记的要求。

于 2013-01-18T14:11:56.573 回答
0

你需要一个自定义Index Handler或一个SolrRequestHandler

于 2013-01-18T11:27:47.183 回答