2

我曾使用 Nutch 1x 来抓取网站并使用 Elasticsearch 来索引数据。我最近遇到了 Storm-crawler 并喜欢它,尤其是它的流媒体性质。

我是否必须为 Storm-crawler 将数据发送到的 ES 服务器初始化并创建映射?

使用 Nutch,只要我启动并运行 ES 索引,映射就会自行处理……除了一些微调。风暴爬行者也一样吗?还是我必须先初始化索引和映射?

4

1 回答 1

1

很高兴听到您喜欢 StormCrawler。

README和基于 ES2.x的视频教程中所述,您应该使用ES_IndexInit脚本显式设置映射。没有它它可能工作,但它不会是最佳的。

于 2017-06-01T07:33:21.077 回答