问题标签 [elasticsearch-7]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elasticsearch - 我可以从 Stormcrawler 获得哪些值/字段?
我正在使用 Stormcrawler 1.15、ElasticSearch 7.5,并按照本教程启动并运行 SC:https ://www.youtube.com/watch?v=KTerugU12TY
在我的 crawler-conf.yaml 中,我有:
这表明我已经有了描述和关键字,但是到目前为止,我在“内容”索引的文档中获得了以下字段:url、内容、域、标题。例如:
但我想获得更多信息,例如关键字、描述、创建日期、抓取日期。甚至可能是一个总结。
我怎样才能得到这些?
我可以使用此爬虫获得哪些其他值/字段?
我怎样才能在 ES 中获得它们?
我听说有一种方法可以让 SC 与 tika 一起更好地解析 html 和 pdf,这样也许我可以从爬取的页面中获取更多的数据和元数据。但我仍然不知道该怎么做。这方面的指南/教程会很好。
elasticsearch - 删除了 Elasticsearch XContentBuilder.bytes
我有以下代码
我的编译器抱怨,因为它无法解析 XContentBuilder 的方法 bytes()。我的代码适用于 elasticsearch 6.2.2,我知道编译器的错误是因为在 elasticsearch 7.5 中删除了方法 bytes()。所以,我想如何创建map
变量,我到处寻找,但没有找到答案。我想我应该创建一个 JsonXContent 并使用它来代替builder.bytes()
或以另一种方式检索字节,但我不确定提前谢谢
elasticsearch - 无法在 EC2 机器上形成 Elasticsearch 7 集群
我在两台 AWS ec2 机器上进行了以下配置设置。
我在两个节点上都得到了以下日志。
[2019-12-30T10:17:19,037][WARN][oeccClusterFormationFailureHelper] [uat-es-2] 尚未发现主节点,此节点之前未加入引导(v7+)集群,此节点必须发现主节点节点 [10.0.66.106, 10.0.66.123] 引导集群:已发现 [{uat-es-2}{DBRJq4uZSJycu7L6vcmZHw}{9k4Ux2veQFiYZcrnHZmFtg}{10.0.66.106}{10.0.66.106:9300}{dilm}{ml.machine_memory =4074115072,xpack.installed=true,ml.max_open_jobs=20}];发现将继续使用来自主机提供商的 [10.0.66.123:9300] 和 [{uat-es-2}{DBRJq4uZSJycu7L6vcmZHw}{9k4Ux2veQFiYZcrnHZmFtg}{10.0.66.106}{10.0.66.106:9300}{dilm}{ml.machine_memory=4074115072 , xpack.installed=true, ml.max_open_jobs=20}] 来自上次已知的集群状态;节点术语 0,术语 0 中最后接受的版本 0
docker - ElasticSearch 7.5.1 无法在 Windows Docker 中正确启动
我正在构建一个在 Windows ServerCore 下运行 ES v7.5.1 的 docker 映像,但这似乎不起作用。
当我启动 docker 容器时,我有一条消息说节点无法加入集群。
[oeccClusterFormationFailureHelper] [66EADAF2C321] 尚未发现主节点,此节点之前未加入引导 (v7+) 集群,并且此节点上的 [cluster.initial_master_nodes] 为空:已发现 [{66EADAF2C321}{PLdolNAJSfC_tyPB32cLtQ}{YC0BB7okSFOBA_i9GqI6xA}{172.27 .103.24}{172.27.103.24:9300}{dilm}{ml.machine_memory=1072611328,xpack.installed=true,ml.max_open_jobs=20}];发现将继续使用来自主机提供商的 [127.0.0.1:9300, [::1]:9300] 和 [{66EADAF2C321}{PLdolNAJSfC_tyPB32cLtQ}{YC0BB7okSFOBA_i9GqI6xA}{172.27.103.24}{172.27.103.24:9300}{dilm}{ml .machine_memory=1072611328, xpack.installed=true, ml.max_open_jobs=20}] 来自上次已知的集群状态;节点术语 0,术语 0 中最后接受的版本 0
如果我在笔记本电脑上运行 ES,它可以正常工作(相同的 elasticsearch.yml 文件)。
你知道为什么 docker 失败了吗?
elasticsearch.yml 文件:
网络主机:0.0.0.0
集群名称:弹性搜索
path.logs: L:/ path.data: D:/
发现.seed_hosts:127.0.0.1,[::1]
http.port: 9200
和泊坞窗图像:
elasticsearch - Elasticsearch geo_shape查询:查找相交/在给定圆内的多边形
弹性搜索 7.5.1
我试图找到所有相交或位于给定圆内的索引多边形/多多边形,而不是在给定多边形内。我的形状被索引为
我当前的(多边形)查询看起来像
"type": "circle"
如果可能的话,我宁愿提供一个查询,比如
我知道,因为不再支持 V6 圆中的重大更改,但这是否可能以某种方式或 ES 是否为给定的圆提供多边形近似?提前致谢
elasticsearch - 多词条自动补全 Elasticsearch
我正在使用 Elasticsearch 7.2.0,我想创建搜索建议。
例如,我有这 3 部电影的标题:
复仇者联盟:无限战争
复仇者联盟:无限战争 Part 2
复仇者联盟:奥创纪元
当我输入“ aven ”时,应该返回如下建议:
复仇者联盟
复仇者联盟无限
复仇者联盟时代
当我输入“复仇者联盟 inf ”
复仇者联盟无限战争
复仇者无限无限战争第2部分
经过大量的弹性搜索教程后,我做到了:
以下文档:
和查询
我的查询返回完整标题而不是碎片。
elasticsearch - 如何让 Elasticsearch 突出显示 search_as_you_type 字段中的部分单词?
我在设置 search_as_you_type 字段时遇到问题,并按照此处的指南突出显示https://www.elastic.co/guide/en/elasticsearch/reference/7.x/search-as-you-type.html
我将留下一系列命令来重现我所看到的。希望有人可以权衡我所缺少的东西:)
- 创建映射
- 插入文件
- 搜索文档
- 回复
我得到的回复没有我期望的突出显示理想的亮点是:This is some <em>ran</em>dom text
c# - 使用规范器的 Elasticsearch 7.x 不区分大小写排序
我正在使用 elasticsearch 7.5 和 NEST 客户端。
我想对查询进行排序,如您所知,默认情况下是 A..Za..z。我希望它不区分大小写。
我正在尝试使用归一化器,如此处所述
然后我可以在映射中使用它:
当我尝试在 C# NEST 客户端上执行此操作时出现的问题:
无法在 Name 属性字段中添加规范器。
有任何想法吗?另一种有效的方法?
太感谢了。
performance - ElasticSearch:query_string '*' 通配符 VS 前缀查询
我编写了一个查询以获取名称以 c 开头的所有客户端。通过以下两个查询,我得到了相同的结果:
我猜字符串查询效率较低,因为它在这里解释:
请注意,通配符查询可能会使用大量内存并且性能很差——想想需要查询多少词才能匹配查询字符串“a* b* c*”。
但是有人能告诉我哪一个对我的方法来说是最好的和更有效的吗?
谢谢。
elasticsearch - ElasticSearch 7.5 中的多样化搜索结果
我有一个包含不同目录产品的搜索索引。现在,当我搜索给定的搜索词时,通常会返回如下结果:
这不是最佳的,因为我想将用户指向其他目录,同时,也不需要他浏览包含同一目录的所有产品的多个搜索结果页面。所以我尝试使用多元化的采样器聚合,它与一个孩子一起使用top_hits-aggregation似乎正是我想要的解决方案:
分页是通过内部 top_hits-aggregation 的“size”和“from”属性完成的。可以从内部 top_hits-aggregation 的值集合中获取搜索结果 - 因此我将查询本身的大小设置为 0。
这似乎有效 - 乍一看,但仔细查看结果会发现,并非所有搜索结果都被返回。结果现在看起来像这样:
……然后就结束了。
看起来,diversively_sampler 在到达最后一个目录后不会扭曲,因此不会出现来自单个目录的进一步结果。我想要的是这样的:
有任何想法吗?我使用多元化采样器的技术并没有一成不变,但我想不出别的办法。也许是一些花哨的基于脚本的查询排序?不知道。基于客户端的重新排序不是一种选择,因为我不希望弹性搜索方式的分页被破坏。我需要分页来保持性能 - 搜索索引约为 18GB,包含 900k 文档......