问题标签 [elasticsearch-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
248 浏览

java - Elasticsearch 5.0 和 Elasticsearch-Spark 连接器 - 什么是正确的 maven artefact

在使用 Elasticsearch-Spark 连接器编写在 Apache Spark 1.6 上运行的应用程序时,(https://www.elastic.co/guide/en/elasticsearch/hadoop/5.0/install.html#_minimalistic_binaries)上的文档说要使用 maven artefact <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark_2.10</artifactId> <version>5.0.0</version> </dependency>

但是,maven 失败并显示无法找到指定的人工制品的错误消息。在通过 maven central 搜索后,我发现了替代版本:

对于 Spark 1.3+

对于 Spark 2.*

0 投票
1 回答
916 浏览

elasticsearch - Elasticsearch hadoop 配置批量批量大小

我可能通读了 es-hadoop / es-spark 项目使用批量索引的 Stackoverflow。如果确实如此,则默认批量大小是根据 BulkProcessor(5Mb)。是否有任何配置可以改变这一点。

JavaEsSparkSQL.saveToEs(dataset,index)在我的代码中使用,我想知道可用于调整性​​能的可用配置是什么。这是否也与数据集的分区有关。

0 投票
1 回答
1235 浏览

java - 从 Elasticsearch 中读取,使用 Spark 获取精确字段

我对 ElasticSearch 很陌生:我正在尝试使用 Java 中的 Spark 从索引中读取数据。

我有一段工作代码,但它返回数据集中的文档,其中列只是文档的两个“根”元素,而所有剩余的数据都以 JSON 格式存储在这些列中。

这是我的代码:

Spark 推断的模式的一个非常简化的版本是:

我可以使用 show() 从 Spark 获得的所有信息类似于

有没有办法在不处理 Spark 的情况下获取每行中的数据(例如 bbbb)?(即有没有办法直接从 ElasticSearch 获取这些数据?)

0 投票
2 回答
180 浏览

algorithm - elasticsearch haoop中合并文档,使用es-sparksql创建多键值对

目前,elasticsearch hadoop 正在将数据集/rdd 转换为具有 1 对 1 映射的文档,即将数据集中的 1 行转换为一个文档。在我们的场景中,我们正在做这样的事情

对于'uni

任何建议我们如何在上面实施,如果有更好的策略,请提出建议。

下面的代码不起作用,但我试图在理论上实现如下所示

我不想在一个列表中收集完整的数据集,因为它可能导致 OOM,因此计划是获取每个分区的列表并将其索引到分区键。

0 投票
1 回答
576 浏览

java - Apache Spark Java API + Twitter4j + 将 Twitter 流保存到 Elasticsearch 时出现异常

我正在尝试使用 Apache Spark Java API 设置 Twitter 流。在将 Twitter 流保存到 Elasticsearch 时,我遇到了一个异常。我想我正在尝试保存原始推文,这就是问题所在。请让我知道我可以尝试解决此异常。

以下是代码:

堆栈跟踪:

0 投票
1 回答
1882 浏览

scala - Spark结构化流ForeachWriter无法获取sparkContext

我正在使用Spark 结构化流从Kafka 队列中读取JSON 数据,但我需要将JSON 数据写入Elasticsearch。

但是,我无法将sparkContextJSONForeachWriter转换为 RDD。它抛出 NPE。

如何SparkContext进入 Writer 将 JSON 转换为 RDD?

0 投票
1 回答
349 浏览

scala - 从 elasticsearch-spark 检索指标

在 ETL 级联作业结束时,我正在使用 elasticsearch-hadoop 使用 Hadoop 计数器公开的 Hadoop 指标提取有关 Elasticsearch摄取指标

我想使用 Spark 做同样的事情,但我没有找到与使用Spark 连接器的指标相关的文档。

并非总是如此,但通常情况下,我们将在 EMR (Hadoop) 中执行作业,因此Spark 连接器可能以与级联连接器相同的方式使用 Hadoop。无论如何,我认为情况并非如此,因为我认为它仅适用于像 Cascading 这样的“MapReduce 连接器类型”。

所以我的问题是:

  1. 如何从 Elasticsearch Spark 连接器中提取指标?
  2. 如果连接器使用 Hadoop 计数器,当我在 Hadoop Yarn 中执行它时,如何从 Spark 访问 Hadoop 计数器?

版本:

  • 斯卡拉 2.11.8
  • 火花 2.1
  • Hadoop 2.7.2
  • 弹性搜索-火花-20_2.11 5.2.2
0 投票
0 回答
142 浏览

hadoop - Elasticsearch-Spark 与 Play JSON 存在依赖冲突。里面的错误信息

我正在开发 Zeppelin 0.7.1,我需要使用弹性搜索火花依赖项和 play-json 依赖项。然而,这两者由于某种原因彼此不兼容。如果我删除 json 依赖项,es-spark 工作正常。我添加它的那一刻,解释器就中断了。

以下是口译员:

org.elasticsearch:elasticsearch-spark-20_2.11:5.4.1

com.typesafe.play:play-json_2.11:2.6.0-M5
(exclude) com.fasterxml.jackson.core:jackson-databind

以下是错误信息:

排除的杰克逊数据绑定不是问题。尝试了有和没有它,但没有任何改变。

0 投票
0 回答
271 浏览

amazon-web-services - 无法 AWS Elasticsearch 节点到节点 Spark

我在 AWS 上有一个 Elasticsearch 服务,我想使用 elasticsearch-spark 使用节点到节点配置从 Spark 访问,因此 Spark 工作人员可以并行连接到 elasticsearch 节点。但是,Amazon 仅提供一个端点来访问集群。

到目前为止,我设法从 Spark 连接到服务的唯一方法是设置

它禁用节点发现并使用我拥有的唯一地址,仅连接到 Elasticsearch 集群中的一个节点,这与我想要的完全相反。

有没有办法允许使用 Amazon 的 Elasticsearch Service 连接到多个节点?

0 投票
1 回答
1041 浏览

scala - 使用 SPARK 中的 elasticsearch-spark 从 Elasticsearch 读取数据时如何转换类型

当我尝试使用esRDD("index")elasticsearch-spark 中的函数从 elasticsearch 读取数据时,我得到 type 中的结果org.apache.spark.rdd.RDD[(String, scala.collection.Map[String,AnyRef])]。当我检查值时,它们都是 type AnyRef。但是,我在ES 网站上看到,它说:

elasticsearch-hadoop 自动将 Spark 内置类型转换为 Elasticsearch 类型(并返回)

我的依赖是:

我错过了什么吗?以及如何以方便的方式转换类型?