我曾使用 Nutch 1x 来抓取网站并使用 Elasticsearch 来索引数据。我最近遇到了 Storm-crawler 并喜欢它,尤其是它的流媒体性质。
我是否必须为 Storm-crawler 将数据发送到的 ES 服务器初始化并创建映射?
使用 Nutch,只要我启动并运行 ES 索引,映射就会自行处理……除了一些微调。风暴爬行者也一样吗?还是我必须先初始化索引和映射?
我曾使用 Nutch 1x 来抓取网站并使用 Elasticsearch 来索引数据。我最近遇到了 Storm-crawler 并喜欢它,尤其是它的流媒体性质。
我是否必须为 Storm-crawler 将数据发送到的 ES 服务器初始化并创建映射?
使用 Nutch,只要我启动并运行 ES 索引,映射就会自行处理……除了一些微调。风暴爬行者也一样吗?还是我必须先初始化索引和映射?
很高兴听到您喜欢 StormCrawler。
如README和基于 ES2.x的视频教程中所述,您应该使用ES_IndexInit脚本显式设置映射。没有它它可能工作,但它不会是最佳的。