问题标签 [elasticsearch-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Elasticsearch 5.0 和 Elasticsearch-Spark 连接器 - 什么是正确的 maven artefact
在使用 Elasticsearch-Spark 连接器编写在 Apache Spark 1.6 上运行的应用程序时,(https://www.elastic.co/guide/en/elasticsearch/hadoop/5.0/install.html#_minimalistic_binaries)上的文档说要使用 maven artefact
<dependency>
<groupId>org.elasticsearch</groupId>
<artifactId>elasticsearch-spark_2.10</artifactId>
<version>5.0.0</version>
</dependency>
但是,maven 失败并显示无法找到指定的人工制品的错误消息。在通过 maven central 搜索后,我发现了替代版本:
对于 Spark 1.3+
对于 Spark 2.*
elasticsearch - Elasticsearch hadoop 配置批量批量大小
我可能通读了 es-hadoop / es-spark 项目使用批量索引的 Stackoverflow。如果确实如此,则默认批量大小是根据 BulkProcessor(5Mb)。是否有任何配置可以改变这一点。
我JavaEsSparkSQL.saveToEs(dataset,index)
在我的代码中使用,我想知道可用于调整性能的可用配置是什么。这是否也与数据集的分区有关。
java - 从 Elasticsearch 中读取,使用 Spark 获取精确字段
我对 ElasticSearch 很陌生:我正在尝试使用 Java 中的 Spark 从索引中读取数据。
我有一段工作代码,但它返回数据集中的文档,其中列只是文档的两个“根”元素,而所有剩余的数据都以 JSON 格式存储在这些列中。
这是我的代码:
Spark 推断的模式的一个非常简化的版本是:
我可以使用 show() 从 Spark 获得的所有信息类似于
有没有办法在不处理 Spark 的情况下获取每行中的数据(例如 bbbb)?(即有没有办法直接从 ElasticSearch 获取这些数据?)
algorithm - elasticsearch haoop中合并文档,使用es-sparksql创建多键值对
目前,elasticsearch hadoop 正在将数据集/rdd 转换为具有 1 对 1 映射的文档,即将数据集中的 1 行转换为一个文档。在我们的场景中,我们正在做这样的事情
对于'uni
任何建议我们如何在上面实施,如果有更好的策略,请提出建议。
下面的代码不起作用,但我试图在理论上实现如下所示
我不想在一个列表中收集完整的数据集,因为它可能导致 OOM,因此计划是获取每个分区的列表并将其索引到分区键。
java - Apache Spark Java API + Twitter4j + 将 Twitter 流保存到 Elasticsearch 时出现异常
我正在尝试使用 Apache Spark Java API 设置 Twitter 流。在将 Twitter 流保存到 Elasticsearch 时,我遇到了一个异常。我想我正在尝试保存原始推文,这就是问题所在。请让我知道我可以尝试解决此异常。
以下是代码:
堆栈跟踪:
scala - Spark结构化流ForeachWriter无法获取sparkContext
我正在使用Spark 结构化流从Kafka 队列中读取JSON 数据,但我需要将JSON 数据写入Elasticsearch。
但是,我无法将sparkContext
JSONForeachWriter
转换为 RDD。它抛出 NPE。
如何SparkContext
进入 Writer 将 JSON 转换为 RDD?
scala - 从 elasticsearch-spark 检索指标
在 ETL 级联作业结束时,我正在使用 elasticsearch-hadoop 使用 Hadoop 计数器公开的 Hadoop 指标提取有关 Elasticsearch摄取的指标。
我想使用 Spark 做同样的事情,但我没有找到与使用Spark 连接器的指标相关的文档。
并非总是如此,但通常情况下,我们将在 EMR (Hadoop) 中执行作业,因此Spark 连接器可能以与级联连接器相同的方式使用 Hadoop。无论如何,我认为情况并非如此,因为我认为它仅适用于像 Cascading 这样的“MapReduce 连接器类型”。
所以我的问题是:
- 如何从 Elasticsearch Spark 连接器中提取指标?
- 如果连接器使用 Hadoop 计数器,当我在 Hadoop Yarn 中执行它时,如何从 Spark 访问 Hadoop 计数器?
版本:
- 斯卡拉 2.11.8
- 火花 2.1
- Hadoop 2.7.2
- 弹性搜索-火花-20_2.11 5.2.2
hadoop - Elasticsearch-Spark 与 Play JSON 存在依赖冲突。里面的错误信息
我正在开发 Zeppelin 0.7.1,我需要使用弹性搜索火花依赖项和 play-json 依赖项。然而,这两者由于某种原因彼此不兼容。如果我删除 json 依赖项,es-spark 工作正常。我添加它的那一刻,解释器就中断了。
以下是口译员:
org.elasticsearch:elasticsearch-spark-20_2.11:5.4.1
com.typesafe.play:play-json_2.11:2.6.0-M5
(exclude) com.fasterxml.jackson.core:jackson-databind
以下是错误信息:
排除的杰克逊数据绑定不是问题。尝试了有和没有它,但没有任何改变。
amazon-web-services - 无法 AWS Elasticsearch 节点到节点 Spark
我在 AWS 上有一个 Elasticsearch 服务,我想使用 elasticsearch-spark 使用节点到节点配置从 Spark 访问,因此 Spark 工作人员可以并行连接到 elasticsearch 节点。但是,Amazon 仅提供一个端点来访问集群。
到目前为止,我设法从 Spark 连接到服务的唯一方法是设置
它禁用节点发现并使用我拥有的唯一地址,仅连接到 Elasticsearch 集群中的一个节点,这与我想要的完全相反。
有没有办法允许使用 Amazon 的 Elasticsearch Service 连接到多个节点?
scala - 使用 SPARK 中的 elasticsearch-spark 从 Elasticsearch 读取数据时如何转换类型
当我尝试使用esRDD("index")
elasticsearch-spark 中的函数从 elasticsearch 读取数据时,我得到 type 中的结果org.apache.spark.rdd.RDD[(String, scala.collection.Map[String,AnyRef])]
。当我检查值时,它们都是 type AnyRef
。但是,我在ES 网站上看到,它说:
elasticsearch-hadoop 自动将 Spark 内置类型转换为 Elasticsearch 类型(并返回)
我的依赖是:
我错过了什么吗?以及如何以方便的方式转换类型?