python - PySpark——将行列表转换为数据框

Question

我实际上要解决的问题是获取 PySpark 数据帧的第一行/最后 N 行，并将结果作为数据帧。具体来说，我希望能够做这样的事情：

 my_df.head(20).toPandas()

但是，因为head()返回行列表，我收到此错误：

AttributeError: 'list' object has no attribute 'toPandas'

因此，我正在寻找将 PySpark 数据帧的前 N 行作为数据帧返回的方法，或者将这些行列表转换为数据帧的方法。有任何想法吗？

score 9 · Accepted Answer

与limit：

>>> df = sc.parallelize((("a", 1), ("b", 2))).toDF()
>>> df.limit(1).toPandas()
  _1  _2
0  a   1

与pd.DataFrame：

>>> pd.DataFrame(df.head(1), columns=df.columns)
  _1  _2
0  a   1

1 回答 1