我正在尝试将数据从 dashDB 读取到 spark 中,然后再次将其写回 dashDB 的基本测试用例。
步骤 1。首先在笔记本中,我阅读了数据:
sqlContext = SQLContext(sc)
dashdata = sqlContext.read.jdbc(
url="jdbc:db2://bluemix05.bluforcloud.com:50000/BLUDB:user=****;password=****;",
table="GOSALES.BRANCH"
).cache()
步骤 2。然后从 dashDB 我创建目标表:
DROP TABLE ****.FROM_SPARK;
CREATE TABLE ****.FROM_SPARK AS (
SELECT *
FROM GOSALES.BRANCH
) WITH NO DATA
步骤 3。最后,在笔记本中,我将数据保存到表中:
from pyspark.sql import DataFrameWriter
writer = DataFrameWriter(dashdata)
dashdata = writer.jdbc(
url="jdbc:db2://bluemix05.bluforcloud.com:50000/BLUDB:user=****;password=****;",
table="****.FROM_SPARK"
)
问题:是否可以从 pyspark 运行第 2 步中的 sql?我无法从pyspark 文档中看到如何做到这一点。我不想使用vanilla python连接到 dashDB,因为设置库涉及的工作量。