我有一个包含一组值的列表 y,需要创建一个数据框,其中包含名为纬度和经度的列。
我将如何使用 pyspark 在 python 中对此进行编码?
下面是我正在尝试的代码,不确定错误 -
data2 = y
sc = SparkContext('local')
spark = SparkSession(sc)
# df = spark.createDataFrame(data=data2,schema=schema1)
# df.printSchema()
# df.show(truncate=False)
rdd = sc.parallelize(data2)
rdd = rdd.map(lambda x:[x]) # transform the rdd
zip_cd1 = spark.createDataFrame(rdd,schema)
zip_cd1 = spark.createDataFrame([[x] for x in data2], schema)
它将返回单列中的值,但我想要两列包含剩余值
例如- y=[1,2,3,4,5,6] O/p:-
Lat Long
1 2
3 4
and so on...
我得到的是-
column name
1
2
3
4
5
6