我试图使用 spark csv lib 在 hdfs 文件上创建一个数据框对象,如本教程所示。
但是当我试图获取 DataFrame 对象的计数时,它显示为 0
这是我的文件的样子,
员工.csv:
empid,empname
1000,Tom
2000,Jerry
我使用加载了上述文件,
val empDf = sqlContext.read.format("com.databricks.spark.csv").option("header","true").option("delimiter",",").load("hdfs:///user/.../employee.csv");
当我查询时,empDf object.printSchema() 给出了正确的模式,其中 empid,empname 作为字符串字段,我可以看到分隔符被正确读取。
但是当我尝试使用显示数据帧时,empDf.show 只给出列标题而没有数据,当我做 empDf.count 给出 0 条记录时。
如果我错过了这里非常需要做的事情,请纠正我。