elasticsearch - Storm-crawler 爬取和索引

Question

我曾使用 Nutch 1x 来抓取网站并使用 Elasticsearch 来索引数据。我最近遇到了 Storm-crawler 并喜欢它，尤其是它的流媒体性质。

我是否必须为 Storm-crawler 将数据发送到的 ES 服务器初始化并创建映射？

使用 Nutch，只要我启动并运行 ES 索引，映射就会自行处理……除了一些微调。风暴爬行者也一样吗？还是我必须先初始化索引和映射？

score 1 · Accepted Answer

很高兴听到您喜欢 StormCrawler。

如README和基于 ES2.x的视频教程中所述，您应该使用 ES_IndexInit脚本显式设置映射。没有它它可能工作，但它不会是最佳的。

1 回答 1