问题标签 [elastic-appsearch]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

22 问题

0 投票

1 回答

37 浏览

elasticsearch - 使用脚本在 Elastic App Search 中更新文档不起作用

我对弹性搜索相当陌生，我正在使用Elastic App Search。

所以我试图通过 MongoDB Realm App 更新弹性应用程序搜索中的数据，该应用程序基本上提供了 CRUD 操作的触发器。

我能够添加文档或更新现有字段。

但问题是我无法向数组字段添加元素。我想从数组中添加或删除元素，经过一些研究我发现它可以使用一些脚本来完成：

但它只是不工作。我正在使用REST API在弹性应用搜索中添加或更新数据。我正在使用弹性云托管服务。

更新 - 1

我正在使用 ES App Search，我创建并将引擎命名为“文章”，当我尝试使用 kibana 运行查询时，我不得不使用一些奇怪的名称“.ent-search-engine-documents-article”。所以我尝试在 Elastic Search REST API 中使用相同的名称

POST /.ent-search-engine-documents-article/_update/docid

它工作得非常好，但我只想使用 APP Search 的 REST API 来执行相同的工作。

elasticsearch elastic-appsearch

2022-01-23T09:47:44.610

0 投票

0 回答

39 浏览

elasticsearch - 为什么 Elastic Search Web Crawler 不抓取整页内容？

我们正在使用 Elastic Enterprise Search 的 App Search Web Crawler。我们观察到它不会对 HTML 页面的所有内容进行爬网和索引。

我们怀疑这可能是由于 HTML 响应太大或<body>标签太大。

正文内容和 HTML 响应的最大限制不在默认限制范围内。

然而，爬虫只爬取页面上的少量内容。我们假设这可能是由于 div 标签损坏/未关闭，但事实并非如此。

我们验证了我们的 HTML 响应，没有未关闭的 div。

我们还使用 Kibana 观察了爬虫日志，它显示 Success 200。但是当我们实际检查页面内容时，它甚至没有爬到一半。大约 20% 的内容是由爬虫爬取的。

我相信网络爬虫在幕后使用 Apache Tika。我使用使用 Apache Tika 的 psvm Java 代码解析了本地代码中的 html 内容。我没有遇到 HTML 问题。我可以扫描所有的 HTML 内容。

为什么会这样？Webcrawler 没有为整页内容编制索引的原因可能是什么？Crawler 是新的，所以没有多少人在使用它，所以没有多少论坛可以检查已经回答的问题。

2022-02-19T05:27:34.750

1 2 3 4 5 6 7 8 9 10

问题标签 [elastic-appsearch]

elasticsearch - 使用脚本在 Elastic App Search 中更新文档不起作用

elasticsearch - 为什么 Elastic Search Web Crawler 不抓取整页内容？

Reference