1

使用 Stormcrawler 时,它是对 Elasticsearch 的索引,而不是对内容的索引。

Stormcrawler 是最新的'origin/master' https://github.com/DigitalPebble/storm-crawler.git

使用elasticsearch-5.6.4

crawler-conf.yaml 有

indexer.url.fieldname: "url" indexer.text.fieldname: "content" indexer.canonical.name: "canonical"

url 和 title 字段被索引,但不是内容。

我试图通过遵循 Julien 的教程来完成这项工作:https ://www.youtube.com/watch?v=xMCuWpPh-4A

一切正常,除了内容没有被 Elasticsearch 索引。我觉得这是一些小的配置错误,但我尝试了很多变体但没有运气。所以,现在我寻求帮助。

谢谢。

4

1 回答 1

4

您确定内容未编入索引吗?内容字段没有被存储,见ES_IndexInit.sh但它应该被索引。要存储它,您可以修改初始化脚本并重新运行爬网,然后将其取回与其他字段相同。要测试它是否被索引,请尝试查询它并查看它如何影响结果。

于 2017-11-10T07:57:46.303 回答