我有两个文件爬虫作业分别运行在使用 fscrawler( https://github.com/dadoonet/fscrawler )相互关联的数据上。现在我想在索引时以某种方式将数据合并在一起(子父关系或平面文档都可以),所以需要一些中间件。查看 ES 5.0 中的 Logstash 和新的 Ingest Node 功能,似乎没有一个支持编写自定义处理器。
是否有可能在索引时进行这种合并/关系映射?还是我必须进行后期处理?
编辑:一项工作以 json 格式抓取“文章”。文章可以有多个附件(在 json 中的附件数组中声明),位于不同的位置。第二个作业抓取实际附件(例如 pdf...),对其应用 TIKA 处理。最后我想要一种文章类型,其中还包含附件的内容。