问题标签 [elastic-appsearch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
37 浏览

elasticsearch - 使用脚本在 Elastic App Search 中更新文档不起作用

我对弹性搜索相当陌生,我正在使用Elastic App Search

所以我试图通过 MongoDB Realm App 更新弹性应用程序搜索中的数据,该应用程序基本上提供了 CRUD 操作的触发器。

我能够添加文档或更新现有字段。

但问题是我无法向数组字段添加元素。我想从数组中添加或删除元素,经过一些研究我发现它可以使用一些脚本来完成:

但它只是不工作。我正在使用REST API在弹性应用搜索中添加或更新数据。我正在使用弹性云托管服务。

更新 - 1

我正在使用 ES App Search,我创建并将引擎命名为“文章”,当我尝试使用 kibana 运行查询时,我不得不使用一些奇怪的名称“.ent-search-engine-documents-article”。所以我尝试在 Elastic Search REST API 中使用相同的名称

POST /.ent-search-engine-documents-article/_update/docid

它工作得非常好,但我只想使用 APP Search 的 REST API 来执行相同的工作。

0 投票
0 回答
39 浏览

elasticsearch - 为什么 Elastic Search Web Crawler 不抓取整页内容?

我们正在使用 Elastic Enterprise Search 的 App Search Web Crawler。我们观察到它不会对 HTML 页面的所有内容进行爬网和索引。

我们怀疑这可能是由于 HTML 响应太大或<body>标签太大。

正文内容和 HTML 响应的最大限制不在默认限制范围内。

然而,爬虫只爬取页面上的少量内容。我们假设这可能是由于 div 标签损坏/未关闭,但事实并非如此。

我们验证了我们的 HTML 响应,没有未关闭的 div。

我们还使用 Kibana 观察了爬虫日志,它显示 Success 200。但是当我们实际检查页面内容时,它甚至没有爬到一半。大约 20% 的内容是由爬虫爬取的。

我相信网络爬虫在幕后使用 Apache Tika。我使用使用 Apache Tika 的 psvm Java 代码解析了本地代码中的 html 内容。我没有遇到 HTML 问题。我可以扫描所有的 HTML 内容。

为什么会这样?Webcrawler 没有为整页内容编制索引的原因可能是什么?Crawler 是新的,所以没有多少人在使用它,所以没有多少论坛可以检查已经回答的问题。