所以,我是初学者,正在 Databricks 上学习 spark 编程(pyspark)——
我想做什么?
列出目录中的所有文件并将其保存到数据框中,以便我能够在此文件列表上应用过滤器、排序等。为什么 ?因为我试图在我的目录中找到最大的文件。
为什么下面不起作用? 我错过了什么?
从 pyspark.sql.types 导入 StringType
sklist = dbutils.fs.ls(sourceFile)
df = spark.createDataFrame(sklist,StringType())