0

我将 Qubole 连接到 Azure 数据湖,我可以启动一个 spark 集群,并在其上运行 PySpark。但是,我无法保存任何本机 Python 输出,例如文本文件或 CSV。除了 Spark SQL DataFrames,我无法保存任何内容。我应该怎么做才能解决这个问题?先感谢您!

4

2 回答 2

0

我解决了。我需要使用此处textFile()的详细信息和示例代码将文件添加到 PySpark 会话 对于我想要的任何文件,我需要将其添加到 spark 会话中。例如,如果我需要从 Azure 数据湖添加一个 .py 文件,我需要使用该文件的路径来添加它。addPyFile()

于 2020-08-11T23:02:07.733 回答
0

如果我正确理解了您的问题,我相信您无法将 pyspark 命令输出的结果下载到文本或 CSV 中,而您能够以漂亮的表格格式对 spark sql 命令输出执行此操作。

不幸的是,对于 Python 或 Shell 命令输出的输出文本没有直接的字段分隔符。您需要将输出逗号分开,以便下载原始输出并将其保存为 csv。

如果这不是您的意思,请与屏幕截图详细信息一起分享更多详细信息,以说明您到底想做什么。因为这将帮助我们更好地回答您的问题。

于 2020-08-03T23:32:02.073 回答