solr - Solr - 加载和索引自定义分隔文件

Question

我得到以下格式的提要文件数据，由自定义分隔符分隔

employee_id||034100151730105|L|
employee_cd||03410015|L|
dept_id||1730105|L|
dept_name||abc|L|
employee_firstname||pqr|L|
employee_lastname||ppp|L|
|R||L|
employee_id||034100151730108|L|
employee_cd||03410032|L|
dept_id||4230105|L|
dept_name||fdfd|L|
employee_firstname||sasas|L|
employee_lastname||dfdf|L|
|R||L|
.....

所以我的行分隔符是 |R||L| 每个记录分隔符是|L| 记录名称 (employee_id) 和记录值 (034100151730105) 用 || 分隔

我需要通过以下方式使用 /update 将此数据加载并索引到 SOLR

employee_id: 034100151730105
employee_cd: 03410015 
...

有人可以帮我吗，我该如何解析这个提要并将其加载到 SOLR？

score 1 · Accepted Answer

照原样，Solr 将无法摄取此内容。最简单的事情是：

使用一些命令行工具，如 grep/sed 等，将此格式转换为 Solr 的 /update 可以理解的正确 csv。您需要：替换 |L| 和 || 用分隔符替换 |R||L| 换行，并注意您使用的转义分隔符等。
然后将 /update 与常用参数“分隔符”等一起使用。
忽略所有带有“跳过”的字段名称

或者，您可以编写一段非常简单的代码，将每个文档读入内存，并通过 Solrj 或 http 在 solr 中对其进行索引。

solr - Solr - 加载和索引自定义分隔文件

1 回答 1

Related

Reference