5

数据框显示 _c0,_c1 而不是我在第一行中的原始列名。
我想显示我的列名,它位于我的 CSV 的第一行。

    dff = 
    spark.read.csv("abfss://dir@acname.dfs.core.windows.net/
    diabetes.csv")
    dff:pyspark.sql.dataframe.DataFrame
    _c0:string
    _c1:string
    _c2:string
    _c3:string
    _c4:string
    _c5:string
    _c6:string
    _c7:string
    _c8:string
4

3 回答 3

7

非常简单的解决方案是在读取文件时设置 header=True :

dff = spark.read.csv("abfss://dir@acname.dfs.core.windows.net/diabetes.csv", header=True)
于 2019-08-02T00:52:30.253 回答
1

加载 CSV 文件时将 header 设置为 true。

spark.read.format("csv")
                   .option("delimiter", ",")
                   .option("header", "true")
                   .option("inferSchema", "true")
                   .load("file.csv")
于 2020-03-13T23:49:52.040 回答
-1

我只是按以下代码排序

    .select(col("_c0").alias("A"),
             col("_c1").alias("B"),
             col("_c2").alias("C"),
             col("_c3").alias("D"),
             col("_c4").alias("E")

            )
于 2019-08-01T13:21:15.030 回答