0

我得到以下格式的提要文件数据,由自定义分隔符分隔

employee_id||034100151730105|L|
employee_cd||03410015|L|
dept_id||1730105|L|
dept_name||abc|L|
employee_firstname||pqr|L|
employee_lastname||ppp|L|
|R||L|
employee_id||034100151730108|L|
employee_cd||03410032|L|
dept_id||4230105|L|
dept_name||fdfd|L|
employee_firstname||sasas|L|
employee_lastname||dfdf|L|
|R||L|
.....

所以我的行分隔符是 |R||L| 每个记录分隔符是|L| 记录名称 (employee_id) 和记录值 (034100151730105) 用 || 分隔

我需要通过以下方式使用 /update 将此数据加载并索引到 SOLR

employee_id: 034100151730105
employee_cd: 03410015 
...

有人可以帮我吗,我该如何解析这个提要并将其加载到 SOLR?

4

1 回答 1

1

照原样,Solr 将无法摄取此内容。最简单的事情是:

  1. 使用一些命令行工具,如 grep/sed 等,将此格式转换为 Solr 的 /update 可以理解的正确 csv。您需要: 替换 |L| 和 || 用分隔符替换 |R||L| 换行,并注意您使用的转义分隔符等。
  2. 然后将 /update 与常用参数“分隔符”等一起使用。
  3. 忽略所有带有“跳过”的字段名称

或者,您可以编写一段非常简单的代码,将每个文档读入内存,并通过 Solrj 或 http 在 solr 中对其进行索引。

于 2017-03-25T10:26:18.423 回答