apache-spark - 将转换后的 DataFrame 保存/导出回 JDBC / MySQL

Question

我试图弄清楚如何使用 newDataFrameWriter将数据写回 JDBC 数据库。我似乎找不到任何文档，尽管查看源代码似乎应该是可能的。

我正在尝试的一个简单示例如下所示：

sqlContext.read.format("jdbc").options(Map(
  "url" -> "jdbc:mysql://localhost/foo", "dbtable" -> "foo.bar")
).select("some_column", "another_column")
.write.format("jdbc").options(Map(
  "url" -> "jdbc:mysql://localhost/foo", "dbtable" -> "foo.bar2")
).save("foo.bar2")

这不起作用——我最终得到了这个错误：

java.lang.RuntimeException: org.apache.spark.sql.execution.datasources.jdbc.DefaultSource does not allow create table as select.
    at scala.sys.package$.error(package.scala:27)
    at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:200)

我不确定我是否做错了什么（例如，为什么它解析为 DefaultSource 而不是 JDBCRDD？），或者如果使用 Spark 的 DataFrames API 无法写入现有的 MySQL 数据库。

score 8 · Accepted Answer

更新

当前的 Spark 版本（2.0 或更高版本）支持在写入时创建表。

原来的答案

可以写入现有表，但目前（Spark 1.5.0）似乎尚不支持使用 JDBC 数据源创建表*。您可以查看SPARK-7646以供参考。

如果表已经存在，您可以简单地使用DataFrameWriter.jdbc方法：

val prop: java.util.Properties = ???
df.write.jdbc("jdbc:mysql://localhost/foo", "foo.bar2", prop)

* 有趣的是 PySpark 似乎支持使用jdbc方法创建表。

apache-spark - 将转换后的 DataFrame 保存/导出回 JDBC / MySQL

1 回答 1

Related

Reference