elasticsearch - 让 StormCrawler 从网页中检索更多正文内容并将其放入 Elasticsearch

Question

我有一个概念证明 Stormcrawler 安装指向我们的一个较小的大学网站（https://example.com - 大约 300 页），并且我对 SC 从正文内容中提取的信息量有疑问。该站点在页面顶部有大量菜单，而 SC 只是通过提取菜单内容来获取大部分内容，然后才被切断，并且从未真正获得页面的真实内容。有没有办法告诉 SC 从页面中获取更多的正文内容？还是 Elasticsearch 方面的问题？我目前已经安装了 SC/ES，就像您发布的教程一样。

谢谢！吉姆

score 0 · Accepted Answer

可能是由于http.content.limit 的配置在artefact生成的配置中具有 65K 的值。

您可以将其设置为 -1 以便保留整个内容。

我从该站点的一个页面中注意到主要内容位于 MAIN 元素中。您可以配置ContentParseFilter以便它从这些元素中提取文本并将其用作文档的文本（如果找到）。这样您就不会将样板中的文本索引到 ES 中。

elasticsearch - 让 StormCrawler 从网页中检索更多正文内容并将其放入 Elasticsearch

1 回答 1

Related

Reference