问题标签 [spark-jdbc]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

71 问题

0 投票

0 回答

215 浏览

apache-spark-sql - 错误：列“blob”是 jsonb 类型，但表达式是字符类型

试图读取镶木地板文件并转储到 Postgres。postgres 表中的一列是 JSONB 数据类型，在 parquet 中它是字符串格式。

它失败了这个错误：

SO上的某人建议将stringtype=unspecifiedPostgres确定为字符串的数据类型，但它似乎不起作用。

apache-spark-sql spark-jdbc

2019-03-28T20:51:00.273

0 投票

1 回答

2791 浏览

sql-server - spark-jdbc 中的预处理语句

我正在尝试使用具有指定偏移量的 Spark jdbc 从 MSSQL 数据库中读取数据。所以数据应该只在指定的时间戳之后加载，这就是这个偏移量。我试图通过在 jdbc 配置中提供查询来实现它，但是，我没有发现用参数化值创建准备好的语句的可能性。在这种情况下，我想参数化一个偏移量，该偏移量在每次应用程序启动后都会改变。如何使用 jdbc 选项实现它？

所有数据库配置都驻留在 application.conf 文件中。这是我从数据库中读取的方式：

相反，查询应该看起来像这样：

2019-04-02T16:49:53.743

0 投票

1 回答

2201 浏览

sql-server - 计算分区 Spark JDBC 的下限和上限

我使用带有 Scala 的 Spark-jdbc 从 MS SQL 服务器读取数据，我想按指定的列对这些数据进行分区。我不想手动设置分区列的下限和上限。我可以在该字段中读取某种最大值和最小值并将其设置为上限/下限吗？另外，使用这个查询我想从数据库中读取所有数据。目前，查询机制如下所示：

sql-server scala apache-spark spark-jdbc

2019-04-08T10:15:16.317

0 投票

2 回答

1533 浏览

sql-server - 检查表是否存在 Spark jdbc

我正在使用 Spark JDBC 将一些数据从 Microsoft SQL 服务器读取到数据框中。当表不存在时（例如，它被意外删除）我得到一个异常：com.microsoft.sqlserver.jdbc.SQLServerException: Invalid object name 'TestAllData'。

我想创建一些机制来首先检查表是否存在，然后才读取数据。有没有办法使用 Spark JDBC 做到这一点？因为我尝试使用来自 Ms sql server 的 if exists 构造，但它不适用于使用 Spark 进行查询。

目前，我用于读取数据的代码如下所示：

sql-server scala apache-spark spark-jdbc

2019-04-23T15:00:30.790

0 投票

1 回答

375 浏览

apache-spark - 使用 simba 驱动程序将数据帧发送到 Bigquery

在尝试使用 Simba 驱动程序将数据帧写入 Bigquery 时。我得到以下异常。下面是数据框。在 bigquery 中创建了一个具有相同架构的表。

Simba 驱动程序抛出以下错误

下面是我使用的代码：

请让我知道是否缺少任何其他配置或哪里出错了。提前致谢！

apache-spark google-bigquery spark-jdbc

2019-05-27T18:34:22.890

0 投票

1 回答

243 浏览

scala - 使用 Scala 从 Apache Spark 中的 MySQL 读取时抛出 NullPointerException

我正在尝试从 MySQL 读取数据，但它正在抛出 NullPointerException。不知道是什么原因。代码在main.scala

代码在Processor.scala

代码PairingBatchUtil.scala：

我希望查询的输出是：

但实际输出是：

scala apache-spark nullpointerexception spark-jdbc

2019-07-04T07:05:45.340

0 投票

0 回答

107 浏览

apache-spark - 使用 javaagent 检测 Spark JDBC

我正在尝试在我的 Spark 应用程序中使用 Kamon JDBC Kanela 代理来检测 JDBC 调用。

-javaagent:kanela-agent-1.0.1.jar当我从 JAR 运行应用程序时，我能够通过在命令行上传递成功地在非火花测试应用程序中检测 JDBC 调用。当我这样做时，我会在控制台中看到 Kanela 横幅显示，并且可以看到当出现 SQL 错误时，我的失败语句处理器被调用。

根据我的研究，我应该能够将 javaagent 注入到 Spark 应用程序的执行程序中，方法是将以下内容传递给 spark-submit: --conf "spark.executor.extraJavaOptions=-javaagent:kanela-agent-1.0.1.jar"。然而，当我这样做时，虽然 Kamon 横幅在我调用 Kamon.init() 时显示在控制台上，但当出现 SQL 错误时，我的失败语句处理器不会被调用。

我想知道的事情：