我正在使用 Scrapy 从网站上抓取产品数据(产品名称和制造商)。然后,我使用管道 ( http://github.com/noplay/scrapy-elasticsearch ) 将数据直接索引到 Elasticsearch 搜索引擎中。我还想从另一个站点(再次使用 API 或 Scrapy)抓取数据,该站点提供有关制造商及其声誉的数据(例如前 250 家制造商的简单排名)。因此,在 Elasticsearch 索引中,示例文档可能包含以下字段:
product name: ifruit 7 (scraped from site A)
product manufacturer: pear (scraped from site A and site B)
manufacturer ranking: 17 (scraped from site B)
将抓取的数据组合起来以便在 Elasticsearch 索引中存储每个文档以及有关产品名称、制造商和产品排名的信息的最简单方法是什么?最好是在抓取过程中尝试合并数据,还是尝试合并两个 JSON 文件,或者调整管道,或者在数据全部在 Elasticsearch 中建立索引后将其弄乱?还是有更好的解决方案?
制造商在两个数据集中的拼写/措辞也可能不同。如何克服这个问题?