0

我有一个包含一组值的列表 y,需要创建一个数据框,其中包含名为纬度和经度的列。

我将如何使用 pyspark 在 python 中对此进行编码?

下面是我正在尝试的代码,不确定错误 -

data2 = y
sc = SparkContext('local')
spark = SparkSession(sc)

 
# df = spark.createDataFrame(data=data2,schema=schema1)
# df.printSchema()
# df.show(truncate=False)

rdd = sc.parallelize(data2)
rdd = rdd.map(lambda x:[x]) # transform the rdd
 
zip_cd1 = spark.createDataFrame(rdd,schema)
zip_cd1 = spark.createDataFrame([[x] for x in data2], schema)

它将返回单列中的值,但我想要两列包含剩余值

例如- y=[1,2,3,4,5,6] O/p:-

Lat Long
1   2
3   4
and so on...

我得到的是-

column name
1
2
3
4
5
6
4

0 回答 0