问题标签 [elasticsearch-hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1082 浏览

scala - Elasticsearch-Hadoop 库无法连接到 docker 容器

我有从 Cassandra 读取数据、处理/转换/过滤数据并将结果写入 Elasticsearch 的 spark 作业。我使用 docker 进行集成测试,但在从 spark 到 Elasticsearch 的编写过程中遇到了麻烦。

依赖项:

在我的单元测试中,我可以使用 TransportClient 连接到 elasticsearch 来设置我的模板和索引

又名。这有效

但是,当我尝试运行时

我收到这个堆栈跟踪

我可以使用 'docker network inspect bridge 验证它正在尝试连接到正确的 IP 地址。

我在 macbook/osx 上本地运行所有内容。我不知道为什么我可以使用 TransportClient 并通过我的浏览器连接到 docker 容器,但是函数 EsSpark.saveToES(...) 总是失败。

0 投票
1 回答
531 浏览

scala - 从 Apache Spark 作业将空字符串写入弹性搜索时,如何修复错误?

当我执行具有以下功能的 Scala 应用程序时引发异常myRDD.saveToEs(我还尝试了数据帧中的 saveToEs)。我的 ES 版本是2.3.5. 我正在使用 Spark 1.5.0,所以也许有一种SparkContext我不知道的方法来配置它。

堆栈跟踪如下 -

命名的字段foo_eff_dt确实有值,在某些情况下没有(即)。我不确定这是否导致异常。

我的 scala 代码片段如下所示:

请帮助/指导我解决这个问题。

TIA。

0 投票
1 回答
1019 浏览

elasticsearch - 如何并行 reIndex ElasticSearch

我正在尝试重新索引 ElasticSearch,我使用了 Scan 和 Bulk API,但它非常慢,我怎样才能并行处理以使其更快。我的python代码如下:

我应该进行扫描多个进程还是应该进行批量多个进程。我一直在徘徊 ElasticSearch-Hadoop 如何实现这一点。我的索引有 10 个节点和 20 个分片。

0 投票
1 回答
1188 浏览

java - Apache Spark:使用自定义标准/模糊匹配加入 RDD(数据集)

是否可以使用一些“自定义标准”/模糊匹配(例如数字或日期的范围/间隔以及字符串的各种“距离方法”(例如 Levenshtein)来连接两个(Pair)RDDs(或Datasets/ s)(在多个字段上)?DataFrame

对于在 an 中“分组”RDD以获得 a PairRDD,可以实现 a PairFunction,但是在 JOINing 两个RDDs/数据集时似乎不可能进行类似的操作?我在想类似的事情:

我正在考虑在其中实现自定义逻辑hashCode()equals()但我不确定如何使“相似”数据在同一个存储桶中结束。我也一直在研究,RDD.cogroup()但还没有弄清楚如何使用它来实现这一点。

我刚遇到elasticsearc-hadoop。有谁知道该库是否可以用来做这样的事情?

我正在使用 Apache Spark 2.0.0。我正在用 Java 实现,但 Scala 中的答案也会非常有帮助。

PS。这是我的第一个 Stackoverflow 问题,如果我犯了一些新手错误,请多多包涵:)。

0 投票
3 回答
2966 浏览

elasticsearch - Python spark Dataframe 到 Elasticsearch

我不知道如何使用来自 spark 的 python 将数据帧写入 elasticsearch。我按照这里的步骤进行操作。

这是我的代码:

上面的代码给出

引起:net.razorvine.pickle.PickleException:ClassDict 构造的预期零参数(对于 pyspark.sql.types._create_row)

我还从以下位置启动脚本: spark-submit --master spark://aggregator:7077 --jars ../jars/elasticsearch-hadoop-2.4.0/dist/elasticsearch-hadoop-2.4.0.jar /vagrant/scripts/aggregation.py以确保elasticsearch-hadoop已加载

0 投票
1 回答
344 浏览

hadoop - 在 Kubernetes 上部署 Elasticsearch for Apache Spark

我想知道是否有人有使用Elasticsearch for Hadoop library配置 Kubernetes 集群的经验。尝试从 spark 写入到 elasticsearch 时,我遇到了节点发现超时的问题。由于 ES的 elasticsearch-cloud-kubernetes插件,我启动并运行了 Elasticsearch ,它处理发现,但我不确定如何最好地配置 elasticsearch-hadoop 以了解 kubernetes 集群中的节点(pod)。我尝试设置spark.es.nodes为 es-client 服务,但这似乎不起作用。我也知道我可以启用es.nodes.wan.only,但如文档中所述,这将严重影响性能,这违背了让它们在同一集群上运行的目的。任何帮助,将不胜感激。

0 投票
1 回答
346 浏览

scala - 如何在 Spark 中使用 elasticsearch-hadoop 将数据从一个 Elasticsearch 集群重新索引到另一个集群

我有两个独立的 Elasticsearch 集群,我想将数据从第一个集群重新索引到第二个集群,但我发现我只能在 SparkContext 配置中设置一个 Elasticsearch 集群,例如:

那么如何在同一应用程序内的 Spark 中使用弹性搜索 hadoop 在两个 Elasticsearch 集群之间移动数据?

0 投票
1 回答
189 浏览

apache-spark - 升级到 Spark 2.0 dataframe.map

我正在将一些 Spark 1.6 代码更新为 2.0.1,并且在使用 map 时遇到了一些问题。

我在 SO 问题上看到了其他问题,例如encoder-error-while-trying-to-map-dataframe-row-to-updated-row但我无法让这些技术发挥作用,对于下面的这种情况来说它们似乎很荒谬。

0 投票
1 回答
248 浏览

java - Elasticsearch 5.0 和 Elasticsearch-Spark 连接器 - 什么是正确的 maven artefact

在使用 Elasticsearch-Spark 连接器编写在 Apache Spark 1.6 上运行的应用程序时,(https://www.elastic.co/guide/en/elasticsearch/hadoop/5.0/install.html#_minimalistic_binaries)上的文档说要使用 maven artefact <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark_2.10</artifactId> <version>5.0.0</version> </dependency>

但是,maven 失败并显示无法找到指定的人工制品的错误消息。在通过 maven central 搜索后,我发现了替代版本:

对于 Spark 1.3+

对于 Spark 2.*

0 投票
1 回答
916 浏览

elasticsearch - Elasticsearch hadoop 配置批量批量大小

我可能通读了 es-hadoop / es-spark 项目使用批量索引的 Stackoverflow。如果确实如此,则默认批量大小是根据 BulkProcessor(5Mb)。是否有任何配置可以改变这一点。

JavaEsSparkSQL.saveToEs(dataset,index)在我的代码中使用,我想知道可用于调整性​​能的可用配置是什么。这是否也与数据集的分区有关。