0

我有两个文件爬虫作业分别运行在使用 fscrawler( https://github.com/dadoonet/fscrawler )相互关联的数据上。现在我想在索引时以某种方式将数据合并在一起(子父关系或平面文档都可以),所以需要一些中间件。查看 ES 5.0 中的 Logstash 和新的 Ingest Node 功能,似乎没有一个支持编写自定义处理器。

是否有可能在索引时进行这种合并/关系映射?还是我必须进行后期处理?

编辑:一项工作以 json 格式抓取“文章”。文章可以有多个附件(在 json 中的附件数组中声明),位于不同的位置。第二个作业抓取实际附件(例如 pdf...),对其应用 TIKA 处理。最后我想要一种文章类型,其中还包含附件的内容。

4

1 回答 1

1

如果您将两个文档都加载到不同的 ES 索引中,您可以使用 LS 输入来查找(尚未)包含附件内容的文章。对于这些文档,您可以查询其他 elasticsearch 索引(请参阅 LS 中的 elasticsearch{} 过滤器)并更新文章文档。

于 2016-10-16T20:31:24.350 回答