apache-spark - 通过pyspark读取csv文件，列空白

Question

我有一个 csv 文件，看起来像这样

当我将这些数据读入 Spark 时，它会将 C 列视为“字符串”，因为前几行中有“空白”。

谁能告诉我如何在 SQL 数据框中加载这个文件，使 c 列保持整数（或浮点数）？

我正在使用“ sc.textFile”将数据读入 spark，然后将其转换为 SQL 数据帧。

我读了这个和这个链接。但他们对我帮助不大。

我的代码部分。在代码的最后一行我得到了错误。

myFile=sc.textFile(myData.csv)

header = myFile.first()
fields = [StructField(field_name, StringType(), True) for field_name in header.split(',')]
fields[0].dataType = FloatType()
fields[1].dataType = FloatType()
fields[2].dataType = FloatType()

schema = StructType(fields)

myFileCh = myFile.map(lambda k: k.split(",")).map(lambda p: (float(p[0]),float(p[1]),float(p[2])))

谢谢！

score 1 · Accepted Answer

所以问题在于这种不安全的铸造。您可以实现一个简短的函数，该函数将执行“安全”转换并在转换为 fload 失败的情况下返回默认值。

def safe_cast(val, to_type, default=None):
try:
    return to_type(val)
except ValueError:
    return default

safe_cast('tst', float) # will return None
safe_cast('tst', float, 0.0) # will return 0.0

myFileCh = myFile.map(lambda k: k.split(",")).map(lambda p: (safe_cast(p[0], float),safe_cast(p[1], float),safe_cast(p[2], float)))

apache-spark - 通过pyspark读取csv文件，列空白

1 回答 1

Related

Reference