pyspark - 在 DSX 上导入 SparkSession DataFrame

Question

我目前正在研究数据科学体验，并希望将 CSV 文件作为 SparkSession DataFrame 导入。我能够成功导入 DataFrame，但是，所有列属性都转换为字符串类型。您如何使此 DSX 功能识别 CSV 文件中存在的类型？

score 1 · Accepted Answer

目前，实际创建的生成代码pyspark.sql.DataFrame如下所示：

df_data_1 = spark.read\
  .format('org.apache.spark.sql.execution.datasources.csv.CSVFileFormat')\
  .option('header', 'true')\
  .load('swift://container_name.' + name + '/test.csv')
df_data_1.take(5)

您必须添加以下选项，然后将推断架构：

.option(inferschema='true')\

pyspark - 在 DSX 上导入 SparkSession DataFrame

1 回答 1

Related

Reference