0

我在 YARN 集群上的 Spark 1.3 上使用 Pyspark。我正在使用管理节点执行 Pyspark 命令来创建一个 DataFrame。然后,我试图将 Spark Dataframe 移动到管理节点上的单个 CSV,但我找不到该文件。指定我的“主”目录似乎不起作用,并且它始终提供 LOG 消息,使我相信该文件已在集群中的另一个节点上完成。然而,我搜索了所有节点但没有找到 .csv 文件;即使我多次尝试执行“.save”命令,它说它不能追加,这让我相信该文件实际上是在某个地方创建的。以下是执行 csv 命令后的部分日志:

INFO TaskSetManager: Finished task 0.0 in stage 8.0 (TID 6) in 2646 ms on   <*child node DNS server*> (1/1)
INFO YarnScheduler: Removed TaskSet 8.0, whose tasks have all completed, from pool
INFO DAGScheduler: Job 4 finished: saveAsTextFile at package.scala:169, took 2.715508 s

我在命令行启动这个:

pyspark --packages com.databricks:spark-csv_2.11:1.2.0

然后执行以下操作以创建 Dataframe 并尝试在 PySpark 中导出。

from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext, Row
sqlContext = SQLContext(sc)
sqlContext.setConf("spark.sql.parquet.binaryAsString","true")

smData = sqlContext.parquetFile("hdfs://<MGMT NODE IP and Folder directory>") 
smData.registerTempTable("temp")
Minutes = sqlContext.sql("Select alt,tail From temp Where year = 2015 And month = 9 And day = 16 and asa is not null and CAST(alt as int) > 3046")
Minutes.save('minutes.csv','com.databricks.spark.csv')
4

0 回答 0