eclipse - 如何使用 spark (Eclipse) 从 Elasticsearch 读取数据并将其转换为表格格式

Question

我已成功将 csv 文件推送到我的 elasticsearch 中。

val spark=SparkSession.builder()
  .appName("eswithfunctions")
  .config("spark.master","local")
  .config("spark.es.nodes","localhost")
  .config("spark.es.port","9200")
  .getOrCreate()

  println("Enter path of file saved locally")
  val path=scala.io.StdIn.readLine()
  val dataframe=spark.read
  .option("inferSchema", "true").csv(path)

  println("Enter the name you want to save dataframe in Elasticsearch")
   val index=scala.io.StdIn.readLine()  
   dataframe.saveToEs(index-name)

我如何从 elasticseach 服务器读取相同内容并在 spark 中以表格格式查看结果。

score 0 · Accepted Answer

您还可以手动指定将使用的数据源以及您希望传递给数据源的任何额外选项。数据源由它们的完全限定名称（即 org.apache.spark.sql.parquet）指定，但对于内置源，您也可以使用它们的短名称（json、parquet、jdbc、orc、libsvm、csv、文本）。从任何数据源类型加载的 DataFrame 都可以使用此语法转换为其他类型。

要加载 JSON 文件，您可以使用：

val peopleDF = spark.read.format("json").load("examples/src/main/resources/people.json")
peopleDF.select("name", "age").write.format("parquet").save("namesAndAges.parquet")

有关火花的更多信息在这里。

eclipse - 如何使用 spark (Eclipse) 从 Elasticsearch 读取数据并将其转换为表格格式

1 回答 1

Related

Reference