sql-server - 将选定列从 SQL 加载到 PySpark

Question

我是（Py）Spark 的新手。我有一个非常大的数据集。我有两张要加入的桌子。数据集驻留在 SQL 数据库中。我正在使用 Jupyter 笔记本。

所以，我只想从我分析所需的 SQL 表中加载。

vod_raw_data = spark.read.jdbc(url="jdbc:sqlserver://000.110.000.71", 
                                table="BBBBBBB", 
                                properties={"user": "uuu", 
                                            "password": "xxxx"})

第一个问题

有人能告诉我如何只获取需要的列（例如在 SQL 中。选择 cola、colb、colc）而不是整个表

和第二张桌子一样，然后加入他们？

第二个问题

我应该在 PySpark 中导入两个表然后加入，还是可以通过其他方式加入？

提前致谢

score 0 · Accepted Answer

您可以为此使用选择。

needed_cols = ['cols here']
vod_raw_data = spark.read.jdbc(url="jdbc:sqlserver://000.110.000.71", 
                                table="BBBBBBB", 
                                properties={"user": "uuu", 
                                            "password": "xxxx"}).select(*needed_cols)

sql-server - 将选定列从 SQL 加载到 PySpark

1 回答 1

Related

Reference