我有一个在列值中包含逗号的 csv 文件。例如,
Column1,Column2,Column3
123,"45,6",789
当数据中有额外的逗号时,这些值用双引号括起来。在上面的示例中,值为 Column1=123, Column2=45,6 和 Column3=789 但是,当尝试读取数据时,由于 Column2 字段中的额外逗号,它给了我 4 个值。
在PySpark中读取这些数据时如何获得正确的值?我正在使用Spark 1.6.3
我目前正在执行以下操作以创建一个 rdd,然后从 rdd 创建一个数据框。
rdd = sc.textFile(input_file).map(lambda line: line.split(','))
df = sqlContext.createDataFrame(rdd)