apache-spark - 在读取单个 CSV 文件时，在 spark 中转换为多个阶段

翻译自：https://stackoverflow.com/questions/49633116 2018-04-03T14:54:06.823

925 次

在读取任何 csv 时，无论 csv 文件的大小是小还是大，或者只有文件中的标题，它总是转换为 3 个阶段。并且总是有三个工作，每个工作都有一个阶段。我的应用程序没有任何转换和操作。它只是加载 csv。

公共类字数{

public static void main(String[] args) throws InterruptedException {
    SparkSession spark = SparkSession.builder().appName("Java Spark 
       Application").master("local").getOrCreate();
    Dataset<Row> df = spark.read()
            .format("com.databricks.spark.csv")
            .option("inferschema", "true")
            .option("header", "true")
            .load("/home/ist/OtherCsv/EmptyCSV.csv");
    spark.close();
}}

火花用户界面图像：

问题：

为什么加载或读取 csv 总是分为三个阶段和三个工作。
为什么在没有任何行动的情况下转换成三份工作？
代码级别的阶段是如何形成的？

apache-spark - 在读取单个 CSV 文件时，在 spark 中转换为多个阶段

0 回答 0

Related

Reference