问题标签 [elasticsearch-hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
478 浏览

elasticsearch-hadoop - 向 Elasticsearch 写入数据:EsHadoopSerializationException

我正在使用 Elasticsearch 5.4 和 Hadoop 2.7.3 并想将数据从 HDFS 写入 Elasticsearch。我在 blog.json 中的数据:

我把 blog.json 放到 HDFS 上:

然后我启动 Elasticsearch 5.4 并编写我的 java 代码:

我在 Elasticsearch 中得到了一个没有任何数据的空索引,流动异常:

它适用于 Elasticsearch 2.3 但不是 5.4。如何更新我的代码?

0 投票
0 回答
102 浏览

java - 如何在java spark中形成地图列表

以上是我的数据框的架构。在这里,我想将 crossID 及其元素分组为地图列表。请帮助我如何在java spark中做到这一点。

0 投票
1 回答
2214 浏览

apache-spark - Zeppelin 和 Spark 配置

我正在本地主机上的 Spark (2.1.1) 上使用 Zeppelin (0.7.1),并尝试将一些配置值添加到我运行的作业中。

具体来说,我正在尝试为 elasticsearch-hadoop 设置 es.nodes 值。

我尝试将键和值添加到解释器配置中,但这并没有出现在 sc.getConf 中。将“--conf mykey:myvalue”的值添加到解释器的“args”配置键中也没有注册。这不是火花解释器配置应该做的吗?

0 投票
1 回答
637 浏览

python - 如果文档不存在,如何在使用 pyspark 批量更新时忽略异常

我正在尝试使用 pyspark 中的 elasticsearch hadoop 包进行更新操作。它在文档上说,如果没有找到数据,则会引发异常。在 pyspark 中忽略此异常的最佳方法是什么?或者是否可以通过 python elasticsearch API 提供的诸如 raise_on_exception=False, raise_on_error=False 之类的传递?谢谢!

0 投票
0 回答
692 浏览

apache-spark-sql - Spark Dataframe 的 Elasticsearch-Hadoop 连接器

我正在尝试将 spark 数据框写入 Elasticsearch,如下所示:

不幸的是,我收到以下错误:

我用:

spark = 2.1.0 scala = 2.11 elasticsearch = 2.4.5 Jupyter notebook

和以下命令开始:

同样在使用 spark.es.nodes.discovery=true 时,我收到一个错误:

有人可以帮忙吗?

0 投票
1 回答
170 浏览

hadoop - Elastisearch-Hadoop how to do a bulk search in spark program

I am writing a spark program which is basically a RDD of Strings. What i need to to do is basically create a query per string and do the query based on Elastic search index. So essentially Query would differ on string. I wanted to use elasticsearch-hadoop to do the search so i can have optimizations. The RDD can be large and i m looking for any optimizations possible

For Example RDD is List[India, IBM Company , Netflix , Lebron James]. We will create More like this search on all these terms and do search on the Index Wikipedia and get back the results. For example we will create four more like this query for India and IBM and Netflix and Lebron James and get back the hits for them

I do have work around where i can use HTTP Rest Api call with Bulk search to get back the hits , but there i will be doing optimizations on my own . I wanted to see if we can use the spark elastic connector to create queries and do the search in optimized way

0 投票
2 回答
662 浏览

elasticsearch - hive 上的不同计数与 elasticsearch 上的基数计数不匹配

我已经elasticsearch使用elasticsearch-hadoop来自elastic.

我需要获取唯一帐号的计数。我用hql和编写了以下查询queryDSL它们返回不同的计数。

蜂巢查询:

同样,在 Elasticsearch 中,查询看起来像这样:

难道我做错了什么?我该怎么做才能匹配这两个查询?

Note:hive 和 elasticsearch 中的记录数完全相同。

0 投票
0 回答
64 浏览

scala - Spark ES-Hadoop 插件 JSON 数据



product_attributes列被写入 ES 时,它会被反斜杠和双引号转义,

有什么办法可以避免json被反斜杠转义?由于 product_attributes 下的哪些键值对没有被单独索引,并且由于它不是有效的 json,ES 将其解释为单个 String 字段

我已将数据框写入 S3 以交叉检查 product_attributes 数据是否被转义,并且 json 也被反斜杠字符转义。

ES 索引模板:https ://pastebin.com/e4tmATHE

使用 spark 和 python 可以很好地将数据写入 ES,所以 ES 索引模板很好

我尝试了另一种方法,我使用 json4s 库构建了 json,然后将 json 写入 ES,但这里也面临同样的问题

现在一旦 json 准备好了,将es.input.json属性设置为 true 并尝试过,但没有运气

也尝试过saveJsonToEs方法,没有运气,json 仍然被转义并被视为单个对象

谢谢

0 投票
1 回答
1135 浏览

apache-spark - Spark + Elastic 搜索写入性能问题

看到使用 spark java 对 Elasticsearch 的低写入次数。

以下是配置

ES集群使用13.xlarge机器

火花:

2 节点 EMR 集群

ES 索引在映射中定义了 16 个分片。

运行作业时具有以下配置,

并使用

使用此配置,我尝试加载 100 万个文档(每个文档的大小为 1300 字节),因此每个 ES 节点加载 500 条记录/文档。

并在火花日志中看到每个任务

火花代码

此外,当我查看 ES 集群中的网络内图时,它非常低,并且我看到 EMR 没有通过网络发送大量数据。有没有办法告诉 Spark 发送正确数量的数据以加快写入速度?

或者

是否还有其他我想调整的配置。因为我看到每个 es 实例每秒 500 个文档较低。有人可以指导此设置缺少的内容以提高我的 es 写入性能吗

提前致谢

0 投票
0 回答
923 浏览

apache-spark - ES批量大小不反映在火花+弹性搜索

尝试读取 9 GB 的 json 数据(在多个文件中)并使用 spark 弹性搜索连接器加载到 ES。

它花费了比预期更多的时间,完成了 288 个任务,每个任务写入 32MB,大约需要 19 秒才能完成。其中一份文件建议减少写入 ES 的数据块,因此我已将这些配置添加到 spark config

而且我没有看到它在任务运行时得到反映,因为它仍然有 288 个任务和每个任务相同的 32mb。有人可以帮助理解如何使用这些配置吗?提前致谢。