scala - spark-csv 包中的 inferSchema

Question

当 CSV 在 Spark 中被读取为数据框时，所有列都被读取为字符串。有什么办法可以得到实际的列类型吗？

我有以下 csv 文件

Name,Department,years_of_experience,DOB
Sam,Software,5,1990-10-10
Alex,Data Analytics,3,1992-10-10

我已使用以下代码阅读了 CSV

val df = sqlContext.
                  read.
                  format("com.databricks.spark.csv").
                  option("header", "true").
                  option("inferSchema", "true").
                  load(sampleAdDataS3Location)
df.schema

所有列都被读取为字符串。我希望将years_of_experience列读取为int并将DOB读取为date

请注意，我已将选项inferSchema设置为true。

我正在使用最新版本（1.0.3）的 spark-csv 包

我在这里错过了什么吗？

score 15 · Accepted Answer

2015-07-30

最新版本实际上是1.1.0，但它并不重要，因为它看起来inferSchema 不包含在最新版本中。

2015-08-17

该软件包的最新版本现在是1.2.0（发布于 2015-08-06），并且模式推断按预期工作：

scala> df.printSchema
root
 |-- Name: string (nullable = true)
 |-- Department: string (nullable = true)
 |-- years_of_experience: integer (nullable = true)
 |-- DOB: string (nullable = true)

关于自动日期解析，我怀疑它是否会发生，或者至少在不提供额外元数据的情况下不会发生。

即使所有字段都遵循某种类似日期的格式，也无法说给定字段是否应该被解释为日期。所以要么是缺少自动日期推断，要么是电子表格一团糟。更不用说时区问题了。

最后，您可以轻松地手动解析日期字符串：

sqlContext
  .sql("SELECT *, DATE(dob) as dob_d  FROM df")
  .drop("DOB")
  .printSchema

root
 |-- Name: string (nullable = true)
 |-- Department: string (nullable = true)
 |-- years_of_experience: integer (nullable = true)
 |-- dob_d: date (nullable = true)

所以这真的不是一个严重的问题。

2017-12-20 :

自 Spark 2.0 以来可用的内置 csv 解析器支持日期和时间戳的模式推断 - 它使用两个选项：

timestampFormat默认yyyy-MM-dd'T'HH:mm:ss.SSSXXX
dateFormat默认yyyy-MM-dd

另请参阅如何强制 inferSchema for CSV 将整数视为日期（使用“dateFormat”选项）？

scala - spark-csv 包中的 inferSchema

1 回答 1

Related

Reference