我在 pyspark 中运行此代码,并且 describe 和 printSchema 之间的输出差异令人困惑。请看下面的代码。
describe() 将 score 列作为字符串给出,而当我不带括号进行描述或使用 printSchema() 时,它将 score 列作为 int 给出 - 它实际上是。
这是我的数据框。
>>> df.show()
+-------+------+-----+
| name|course|score|
+-------+------+-----+
| fsdhfu| a| 56|
| sdjjfd| a| 57|
|kljsjlk| b| 23|
| udjkx| b| 89|
| ias| c| 36|
| jksdkj| c| 37|
| usdkj| d| 48|
+-------+------+-----+
使用描述:
>>> df2.describe()
DataFrame[summary: string, name: string, course: string, score: string]
>>> df2.describe
<bound method DataFrame.describe of DataFrame[name: string, course: string, score: int]>
使用 printSchema:
>>> df2.printSchema()
root
|-- name: string (nullable = true)
|-- course: string (nullable = true)
|-- score: integer (nullable = true)