“elasticsearch-spark”的相关标签问题

0 投票

1 回答

248 浏览

java - Elasticsearch 5.0 和 Elasticsearch-Spark 连接器 - 什么是正确的 maven artefact

在使用 Elasticsearch-Spark 连接器编写在 Apache Spark 1.6 上运行的应用程序时，（https://www.elastic.co/guide/en/elasticsearch/hadoop/5.0/install.html#_minimalistic_binaries）上的文档说要使用 maven artefact <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark_2.10</artifactId> <version>5.0.0</version> </dependency>

但是，maven 失败并显示无法找到指定的人工制品的错误消息。在通过 maven central 搜索后，我发现了替代版本：

对于 Spark 1.3+

对于 Spark 2.*

2016-11-04T18:27:52.853

0 投票

1 回答

916 浏览

elasticsearch - Elasticsearch hadoop 配置批量批量大小

我可能通读了 es-hadoop / es-spark 项目使用批量索引的 Stackoverflow。如果确实如此，则默认批量大小是根据 BulkProcessor(5Mb)。是否有任何配置可以改变这一点。

我JavaEsSparkSQL.saveToEs(dataset,index)在我的代码中使用，我想知道可用于调整性能的可用配置是什么。这是否也与数据集的分区有关。

elasticsearch elasticsearch-hadoop elasticsearch-spark

2016-11-09T03:18:13.973

0 投票

1 回答

1235 浏览

java - 从 Elasticsearch 中读取，使用 Spark 获取精确字段

我对 ElasticSearch 很陌生：我正在尝试使用 Java 中的 Spark 从索引中读取数据。

我有一段工作代码，但它返回数据集中的文档，其中列只是文档的两个“根”元素，而所有剩余的数据都以 JSON 格式存储在这些列中。

这是我的代码：

Spark 推断的模式的一个非常简化的版本是：

我可以使用 show() 从 Spark 获得的所有信息类似于

有没有办法在不处理 Spark 的情况下获取每行中的数据（例如 bbbb）？（即有没有办法直接从 ElasticSearch 获取这些数据？）

java elasticsearch apache-spark elasticsearch-spark

2016-11-17T12:57:58.933

0 投票

2 回答

180 浏览

algorithm - elasticsearch haoop中合并文档，使用es-sparksql创建多键值对

目前，elasticsearch hadoop 正在将数据集/rdd 转换为具有 1 对 1 映射的文档，即将数据集中的 1 行转换为一个文档。在我们的场景中，我们正在做这样的事情

对于'uni

任何建议我们如何在上面实施，如果有更好的策略，请提出建议。

下面的代码不起作用，但我试图在理论上实现如下所示

我不想在一个列表中收集完整的数据集，因为它可能导致 OOM，因此计划是获取每个分区的列表并将其索引到分区键。

algorithm hadoop elasticsearch-spark

2016-12-28T09:08:11.487

0 投票

1 回答

576 浏览

java - Apache Spark Java API + Twitter4j + 将 Twitter 流保存到 Elasticsearch 时出现异常

我正在尝试使用 Apache Spark Java API 设置 Twitter 流。在将 Twitter 流保存到 Elasticsearch 时，我遇到了一个异常。我想我正在尝试保存原始推文，这就是问题所在。请让我知道我可以尝试解决此异常。

以下是代码：

堆栈跟踪：

java apache-spark twitter4j elasticsearch-spark

2017-02-06T17:09:28.263

0 投票

1 回答

1882 浏览

scala - Spark结构化流ForeachWriter无法获取sparkContext

我正在使用Spark 结构化流从Kafka 队列中读取JSON 数据，但我需要将JSON 数据写入Elasticsearch。

但是，我无法将sparkContextJSONForeachWriter转换为 RDD。它抛出 NPE。

如何SparkContext进入 Writer 将 JSON 转换为 RDD？

scala apache-spark spark-structured-streaming elasticsearch-spark

2017-02-22T14:41:11.970

0 投票

1 回答

349 浏览

scala - 从 elasticsearch-spark 检索指标

在 ETL 级联作业结束时，我正在使用 elasticsearch-hadoop 使用 Hadoop 计数器公开的 Hadoop 指标提取有关 Elasticsearch摄取的指标。

我想使用 Spark 做同样的事情，但我没有找到与使用Spark 连接器的指标相关的文档。

并非总是如此，但通常情况下，我们将在 EMR (Hadoop) 中执行作业，因此Spark 连接器可能以与级联连接器相同的方式使用 Hadoop。无论如何，我认为情况并非如此，因为我认为它仅适用于像 Cascading 这样的“MapReduce 连接器类型”。

所以我的问题是：

如何从 Elasticsearch Spark 连接器中提取指标？
如果连接器使用 Hadoop 计数器，当我在 Hadoop Yarn 中执行它时，如何从 Spark 访问 Hadoop 计数器？

版本：

斯卡拉 2.11.8
火花 2.1
Hadoop 2.7.2
弹性搜索-火花-20_2.11 5.2.2

scala apache-spark elasticsearch elasticsearch-hadoop elasticsearch-spark

2017-04-03T14:00:45.257

0 投票

0 回答

142 浏览

hadoop - Elasticsearch-Spark 与 Play JSON 存在依赖冲突。里面的错误信息

我正在开发 Zeppelin 0.7.1，我需要使用弹性搜索火花依赖项和 play-json 依赖项。然而，这两者由于某种原因彼此不兼容。如果我删除 json 依赖项，es-spark 工作正常。我添加它的那一刻，解释器就中断了。

以下是口译员：

org.elasticsearch:elasticsearch-spark-20_2.11:5.4.1

com.typesafe.play:play-json_2.11:2.6.0-M5 (exclude) com.fasterxml.jackson.core:jackson-databind

以下是错误信息：

排除的杰克逊数据绑定不是问题。尝试了有和没有它，但没有任何改变。

hadoop elasticsearch apache-zeppelin play-json elasticsearch-spark

2017-06-11T13:42:50.780

0 投票

0 回答

271 浏览

amazon-web-services - 无法 AWS Elasticsearch 节点到节点 Spark

我在 AWS 上有一个 Elasticsearch 服务，我想使用 elasticsearch-spark 使用节点到节点配置从 Spark 访问，因此 Spark 工作人员可以并行连接到 elasticsearch 节点。但是，Amazon 仅提供一个端点来访问集群。

到目前为止，我设法从 Spark 连接到服务的唯一方法是设置

它禁用节点发现并使用我拥有的唯一地址，仅连接到 Elasticsearch 集群中的一个节点，这与我想要的完全相反。

有没有办法允许使用 Amazon 的 Elasticsearch Service 连接到多个节点？

amazon-web-services apache-spark elasticsearch amazon-elasticsearch elasticsearch-spark

2017-06-19T11:10:38.813

0 投票

1 回答

1041 浏览

scala - 使用 SPARK 中的 elasticsearch-spark 从 Elasticsearch 读取数据时如何转换类型

当我尝试使用esRDD("index")elasticsearch-spark 中的函数从 elasticsearch 读取数据时，我得到 type 中的结果org.apache.spark.rdd.RDD[(String, scala.collection.Map[String,AnyRef])]。当我检查值时，它们都是 type AnyRef。但是，我在ES 网站上看到，它说：

elasticsearch-hadoop 自动将 Spark 内置类型转换为 Elasticsearch 类型（并返回）

我的依赖是：

我错过了什么吗？以及如何以方便的方式转换类型？

scala apache-spark elasticsearch elasticsearch-spark

2017-07-06T07:56:14.657

问题标签 [elasticsearch-spark]

Reference