问题标签 [elasticsearch-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1233 浏览

scala - org.elasticsearch.hadoop.rest.EsHadoopRemoteException:search_context_missing_exception:未找到 id 的搜索上下文

由于“未找到 id 的搜索上下文”,Spark 任务失败。我尝试了几个选项,例如

spark.es.input.max.docs.per.partition 250

spark.es.scroll.size 100

spark.es.batch.size.bytes 32mb

但任务仍然失败。我们正在使用: Spark 版本:2.3.1,Elasticsearh 集群版本:6.5.4,elasticsearch-spark 版本:6.5.4

任何帮助都将不胜感激。

0 投票
1 回答
65 浏览

apache-spark - 如何使用 elasticsearch-spark 在 Elasticsearch 中创建索引?

我想根据我的 spark 转换在 Elasticsearch 中创建一个索引。我想知道使用 elasticsearch-spark 库的最佳方法是什么?亲切的问候

0 投票
0 回答
71 浏览

pyspark - 如何按元数据字段(例如通过 _id)过滤从 Elasticsearch 读取的 PySpark SQL 数据帧?

我正在从 Elasticsearch 索引中读取 PySpark SQL Dataframe,读取选项为es.read.metadata=True. 我想按元数据字段上的条件过滤数据,但得到一个空结果,尽管应该有结果。是否有可能得到实际结果?

当我在数据帧上使用时,我确实得到了结果limit,即使数字很大,甚至比数据帧的大小还要大。

此外,我在使用其他不_metadata相关的字段时确实得到了结果。

例如:

结果为空:

但是使用时limit

结果不为空:

0 投票
1 回答
75 浏览

elasticsearch - EsSparkSQL$.saveToES 方法中发生 NoSuchMethodError

线程“主”java.lang.NoSuchMethodError 中的异常:org.elasticsearch.spark.sql.EsSparkSQL$.saveToEs

将文档从 Spark 应用程序插入 Elasticsearch 集群时出现上述错误。

0 投票
1 回答
737 浏览

apache-spark - Elasticsearch with Spark,基于数据框列的动态索引创建

我有一个火花数据框,其中有一列说“名称”。该名称在单个数据框中可能具有不同的值。当我使用 spark (scala) 将数据写入 elasticsearch 时,我想根据列“name”的值将数据写入不同的索引。

saveToEs 需要一个字符串,我正在寻找以下内容:

或类似的东西,我可以在写入期间分配值。

0 投票
1 回答
83 浏览

scala - Spark-elasticsearch 使用 spark 从 elasticsearch 中获取过滤后的记录

我有一张地图如下:

我的弹性数据有一个名为“名称”的字段。我想从 spark 查询弹性搜索并返回所有具有“a”、“b”、“c”作为“name”字段值的记录。

我不想硬编码弹性查询中的名称。

有人可以帮我构建一个动态查询,它接受字符串列表。

0 投票
1 回答
370 浏览

elasticsearch - 如何通过 PySpark 将带有结构列的数据框写入 Elasticsearch

我正在尝试将包含结构列的数据框写入 Elasticsearch:

结果是:

这确实有效,但 JSON 被转义,因此相应的详细信息字段在 Kibana 中不可点击:

我尝试提供.option("es.input.json","true"),但得到一个异常:

相反,如果我尝试在不转换为 JSON 的情况下写入数据,即从原始代码中删除to_json( ,我会得到另一个异常:

所以问题是如何将带有嵌套 JSON 列的 PySpark 数据框写入 Elasticsearch,这样 JSON 就不会被转义?

0 投票
1 回答
740 浏览

apache-spark - SparkContext:运行 Spark 作业时初始化 SparkContext 时出错

我正在做一个将数据从 Elastic Search 加载到 HDFS 的 Spark 程序,但在初始化 SparkContext 时出现错误。运行作业时出错。错误是在制作火花会话期间。

Hadoop:3.2.1

火花:2.4.4

Elasticsearch Spark(适用于 Spark 2.X)» 7.5.1

电子病历:6.0.0

代码:

错误日志:

有人可以帮忙吗?谢谢。

0 投票
0 回答
146 浏览

apache-spark - org.elasticsearch.hadoop.rest.EsHadoopRemoteException mapper_parsing_exception:无法解析带日期的字段

我正在将使用elasticsearch-spark 7.6.0版本的现有应用程序迁移到最新的 ie elasticsearch-spark-30_2.12:7.15.0。我正在加载带有日期映射的 ES 数据,如下所示

但是我收到错误

我无法弄清楚虽然值很长并且打印数据集dataset.show()显示有效日期,但为什么无法写入 ES?是否需要为具有最新 ES 的日期字段传递任何新配置?任何帮助表示赞赏。

0 投票
1 回答
30 浏览

apache-spark - 从 Kafka 到 Elastic Search 的 Spark 结构化流

我想写一个从 Kafka 到 Elasticsearch 的 Spark Streaming Job。在这里,我想在从 Kafka 读取模式时动态检测模式。

你能帮我这样做吗?

我知道,这可以通过下一行在 Spark 批处理中完成。

val schema = spark.read.json(dfKafkaPayload.select("value").as[String]).schema

但是在通过 Spark Streaming Job 执行相同的操作时,我们无法执行上述操作,因为流式处理只能在 Action 上进行。

请告诉我。