v6.2
使用规定的 spark 连接器从 Elasticsearch 读取到 sparkorg.elasticsearch:elasticsearch-spark-20_2.11:6.3.2
非常慢。这是来自具有索引的 3 节点 ES 集群:
curl https://server/_cat/indices?v
green open db MmVwAwYfTz4eE_L-tncbwQ 5 1 199983131 9974871 105.1gb 51.8gb
在(10 个节点,1tb 内存,>50 个 VCPU)spark 集群上读取:
val query = """{
"query": {
"match_all": {}
}
}"""
val df = spark.read
.format("org.elasticsearch.spark.sql")
.option("es.nodes","server")
.option("es.port", "443")
.option("es.net.ssl","true")
.option("es.nodes.wan.only","true")
.option("es.input.use.sliced.partitions", "false")
.option("es.scroll.size", "1000")
.option("es.read.field.include", "f1,f2,f3")
.option("es.query",query)
.load("db")
df.take(1)
这是(缓慢地)它应该如何工作,还是我做错了什么?