3

我正在使用这个项目:https ://github.com/lucidworks/hadoop-solr 有谁知道正在处理的文档的名称(或路径)保存在哪个值中。我想将此值检索到 Solr Admin(将带有其名称的字段添加到我的架构中)。这可能吗?

示例:我希望能够看到文档的名称,查询从中返回相同的结果。

我正在使用以下命令运行项目:

    hadoop jar solr-hadoop-job-2.2.5.jar 
    com.lucidworks.hadoop.ingest.IngestJob  
    -Dlww.commit.on.close=true -DcsvDelimiter= 
   -cls com.lucidworks.hadoop.ingest.CSVIngestMapper -c spyros1  
    - i  /usr/local/hadoop/input 
    -of com.lucidworks.hadoop.io.LWMapRedOutputFormat 
    -s http://127.0.1.1:8983/solr
4

2 回答 2

2

这对我有用:

hadoop jar solr-hadoop-job-2.2.5.jar com.lucidworks.hadoop.ingest.IngestJob  
    -Dlww.commit.on.close=true 
    -Dcom.lucidworks.hadoop.ingest.RegexIngestMapper.regex="\\w+" 
   -Dcom.lucidworks.hadoop.ingest.RegexIngestMapper.groups_to_fields=0=match_ss  
   -cls com.lucidworks.hadoop.ingest.RegexIngestMapper  
   -c collection1 -i /path/* -s http://127.0.1.1:8983/solr
   -of com.lucidworks.hadoop.io.LWMapRedOutputFormat 

另请参阅以获取更多信息。

于 2016-09-22T00:09:43.050 回答
1

对于CSVIngestMapper文件路径当前未添加到任何 Solr 字段。

随意在 repo 中创建一个问题。https://github.com/lucidworks/hadoop-solr

也欢迎 PR

编辑:(有关解决方案,请参见https://github.com/lucidworks/hadoop-solr/issues/16

于 2016-09-21T15:27:19.300 回答