dataframe - 使用 Pyspark 读取 CSV

Question

我正在使用下面的代码在 Spark DataFrame 中读取 CSV 文件，但输出一团糟：

df = spark.read.format('csv').options(header=True, inferSchema=True).csv('spark.csv')

输出：

+----------------+----------------+---------------- -+------------------+----------+------ ------------+-----------+-------------- +------------+-------------+------------+--------- +----------------+--------+--------------------+-- --------+----------+------+--------+--------+----- ---+--------+--------+---------------+ | PARID|PROPERTYHOUSENUM|PROPERTYFRACTION|PROPERTYADDRESSDIR|PROPERTYADDRESSStreet|PROPERTYADDRESSSUF|PROPERTYADDRESSUNITDESC|PROPERTYUNITNO|PROPERTYCITY|PROPERTYSTATE|PROPERTYZIP|学校代码| SCHOOLDESC|MUNICODE| MUNIDESC|记录| 日期| 价格|DEEDBOOK|DEEDPAGE|销售代码| SALEDESC|INSTRTYP| INSTRTYPEPDESC| +----------------+----------------+---------------- -+------------------+----------+------ ------------+-----------+-------------- +------------+-------------+------------+--------- +----------------+--------+--------------------+-- --------+----------+------+--------+--------+----- ---+--------+--------+---------------+ |1075F00108000000| 4720| | 空| 亮点| 博士| 空| 空| 吉布森| 帕| 15044| 20|汉普顿镇| 914| 汉普顿|2012-09-27|2012-09-27|120000| 15020| 356| 3|爱与情... | 德| 契约| |0011A00237000000| 0| | 空| 伦巴第| 意法| 空| 空| 匹兹堡| 帕| 15219| 47| 匹兹堡| 103|3rd Ward - PITTSB...|2015-01-06|2015-01-06| 1783| TR15| 00002| 2| 市财政销售| TS| 司库契据| |0011J00047000000| 1903| | 空| 福布斯| 大道| 空| 空| 匹兹堡| 帕| 15219| 47| 匹兹堡| 101|1 区 - 皮茨... |2012-10-26|2012-10-26| 4643| TR13| 003| 2| 市财政销售| TS| 司库契据| |0113B00029000000| 479| | 空| 罗斯福| 大道| 空| 空| 匹兹堡| 帕| 15202| 29| 北门| 803| 贝尔维尤|2017-03-27|2017-03-06| 0| 16739| 166| 3|爱与情...| 共同|纠正行为| |0119S00024000000| 5418| | 空| 卡内基| 意法| 空| 空| 匹兹堡| 帕| 15201| 47| 匹兹堡| 110|10 区 - PITTS... |2015-02-04|2015-02-04| 27541| TR15| 00059| GV| 政府销售| TS| 司库契据| +----------------+----------------+---------------- -+------------------+----------+------ ------------+-----------+-------------- +------------+-------------+------------+--------- +----------------+--------+--------------------+-- --------+----------+------+--------+--------+----- ---+--------+--------+---------------+仅显示前 5 行

我是大数据问题的新手，我正在尝试学习如何正确使用 Spark 来实现这一目标。如何正确读取此数据框？我缺少一些选项吗？

score 1 · Accepted Answer

您已正确读取数据框，但您的数据框太宽（列太多）以至于无法放入您的窗口，因此这些行被换行并导致输出混乱。

如果您想要更整洁的输出，请尝试df.show(vertical=True)，或选择要显示的几列，例如df.select(df.columns[:2]).show()，它显示前三列。

dataframe - 使用 Pyspark 读取 CSV

1 回答 1

Related

Reference