使用 Stormcrawler 时,它是对 Elasticsearch 的索引,而不是对内容的索引。
Stormcrawler 是最新的'origin/master' https://github.com/DigitalPebble/storm-crawler.git
使用elasticsearch-5.6.4
crawler-conf.yaml 有
indexer.url.fieldname: "url"
indexer.text.fieldname: "content"
indexer.canonical.name: "canonical"
url 和 title 字段被索引,但不是内容。
我试图通过遵循 Julien 的教程来完成这项工作:https ://www.youtube.com/watch?v=xMCuWpPh-4A
一切正常,除了内容没有被 Elasticsearch 索引。我觉得这是一些小的配置错误,但我尝试了很多变体但没有运气。所以,现在我寻求帮助。
谢谢。