问题标签 [elastic-enterprise-search]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
39 浏览

elasticsearch - 为什么 Elastic Search Web Crawler 不抓取整页内容?

我们正在使用 Elastic Enterprise Search 的 App Search Web Crawler。我们观察到它不会对 HTML 页面的所有内容进行爬网和索引。

我们怀疑这可能是由于 HTML 响应太大或<body>标签太大。

正文内容和 HTML 响应的最大限制不在默认限制范围内。

然而,爬虫只爬取页面上的少量内容。我们假设这可能是由于 div 标签损坏/未关闭,但事实并非如此。

我们验证了我们的 HTML 响应,没有未关闭的 div。

我们还使用 Kibana 观察了爬虫日志,它显示 Success 200。但是当我们实际检查页面内容时,它甚至没有爬到一半。大约 20% 的内容是由爬虫爬取的。

我相信网络爬虫在幕后使用 Apache Tika。我使用使用 Apache Tika 的 psvm Java 代码解析了本地代码中的 html 内容。我没有遇到 HTML 问题。我可以扫描所有的 HTML 内容。

为什么会这样?Webcrawler 没有为整页内容编制索引的原因可能是什么?Crawler 是新的,所以没有多少人在使用它,所以没有多少论坛可以检查已经回答的问题。