问题标签 [elastic-enterprise-search]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1 问题

0 投票

0 回答

39 浏览

elasticsearch - 为什么 Elastic Search Web Crawler 不抓取整页内容？

我们正在使用 Elastic Enterprise Search 的 App Search Web Crawler。我们观察到它不会对 HTML 页面的所有内容进行爬网和索引。

我们怀疑这可能是由于 HTML 响应太大或<body>标签太大。

正文内容和 HTML 响应的最大限制不在默认限制范围内。

然而，爬虫只爬取页面上的少量内容。我们假设这可能是由于 div 标签损坏/未关闭，但事实并非如此。

我们验证了我们的 HTML 响应，没有未关闭的 div。

我们还使用 Kibana 观察了爬虫日志，它显示 Success 200。但是当我们实际检查页面内容时，它甚至没有爬到一半。大约 20% 的内容是由爬虫爬取的。

我相信网络爬虫在幕后使用 Apache Tika。我使用使用 Apache Tika 的 psvm Java 代码解析了本地代码中的 html 内容。我没有遇到 HTML 问题。我可以扫描所有的 HTML 内容。

为什么会这样？Webcrawler 没有为整页内容编制索引的原因可能是什么？Crawler 是新的，所以没有多少人在使用它，所以没有多少论坛可以检查已经回答的问题。

2022-02-19T05:27:34.750

1 2 3 4 5 6 7 8 9 10

问题标签 [elastic-enterprise-search]

elasticsearch - 为什么 Elastic Search Web Crawler 不抓取整页内容？

Reference