3

我在 azure databricks 版本 6.3 - Spark 2.4.4 上有一个工作笔记本

此笔记本使用其连接器将数据引入 Azure Synapse Analytics

当我将笔记本升级到版本 7.0 - Spark 3.0.0 时,该过程开始失败并出现以下错误:

com.microsoft.sqlserver.jdbc.SQLServerException: HdfsBridge::recordReaderFillBuffer - 填充记录读取器缓冲区时遇到意外错误:ClassCastException: 类 java.lang.Long 无法转换为类 java.lang.Integer(java.lang.Long 和 java.lang.Long lang.Integer 在加载程序'bootstrap'的模块 java.base 中)[ErrorCode = 106000] [SQLState = S0001]

这是 Synapse Analytics 中的表架构:

CREATE TABLE [dbo].[IncrementalDestination]
(
[Id] [int] NOT NULL,
[VarChar] [varchar](1000) NULL,
[Char] [char](1000) NULL,
[Text] [varchar](1000) NULL,
[NVarChar] [nvarchar](1000) NULL,
[NChar] [nchar](1000) NULL,
[NText] [nvarchar](1000) NULL,
[Date] [date] NULL,
[Datetime] [datetime] NULL,
[Datetime2] [datetime2](7) NULL,
[Smalldatetime] [smalldatetime] NULL,
[Bigint] [bigint] NULL,
[Bit] [bit] NULL,
[Decimal] [decimal](18, 0) NULL,
[Int] [int] NULL,
[Money] [money] NULL,
[Numeric] [numeric](18, 0) NULL,
[Smallint] [smallint] NULL,
[Smallmoney] [smallmoney] NULL,
[Tinyint] [tinyint] NULL,
[Float] [float] NULL,
[Real] [real] NULL,
[Column With Space] [varchar](1000) NULL,
[Column_ç_$pecial_char] [varchar](1000) NULL,
[InsertionDateUTC] [datetime] NOT NULL,
[De_LastUpdated] [datetime2](3) NOT NULL
)
WITH
(
DISTRIBUTION = ROUND_ROBIN,
CLUSTERED COLUMNSTORE INDEX
)
GO

这是 Databricks 在读取 Azure BlobStorage 中的一堆拼花后生成的架构

root
 |-- Id: long (nullable = true)
 |-- VarChar: string (nullable = true)
 |-- Char: string (nullable = true)
 |-- Text: string (nullable = true)
 |-- NVarChar: string (nullable = true)
 |-- NChar: string (nullable = true)
 |-- NText: string (nullable = true)
 |-- Date: timestamp (nullable = true)
 |-- Datetime: timestamp (nullable = true)
 |-- Datetime2: timestamp (nullable = true)
 |-- Smalldatetime: timestamp (nullable = true)
 |-- Bigint: long (nullable = true)
 |-- Bit: boolean (nullable = true)
 |-- Decimal: long (nullable = true)
 |-- Int: long (nullable = true)
 |-- Money: double (nullable = true)
 |-- Numeric: long (nullable = true)
 |-- Smallint: long (nullable = true)
 |-- Smallmoney: double (nullable = true)
 |-- Tinyint: long (nullable = true)
 |-- Float: double (nullable = true)
 |-- Real: double (nullable = true)
 |-- Column_With_Space: string (nullable = true)
 |-- Column_ç_$pecial_char: string (nullable = true)
 |-- InsertionDateUTC: timestamp (nullable = true)
 |-- De_LastUpdated: timestamp (nullable = false)

我看到了这个

Int: long (nullable = true)

但是我能做什么呢?

这种转换不应该是自然而容易完成的吗?

我认为这些新功能有些问题=]

4

1 回答 1

0

我相信这是由以下更改引起的,如迁移指南中所述:

在 Spark 3.0 中,当向具有不同数据类型的表列中插入值时,将按照 ANSI SQL 标准执行类型强制。不允许某些不合理的类型转换,例如将 string 转换为 int 并将 double 转换为 boolean。如果值超出列的数据类型的范围,则会引发运行时异常。在 Spark 2.4 及以下版本中,只要是有效的 Cast,就允许在表插入期间进行类型转换。将超出范围的值插入整数字段时,将插入该值的低位(与 Java/Scala 数字类型转换相同)。例如,如果将 257 插入到 byte 类型的字段中,则结果为 1。行为由选项控制spark.sql.storeAssignmentPolicy,默认值为“ANSI”。将该选项设置为“传统”会恢复以前的行为。

因此,您可以尝试设置spark.sql.storeAssignmentPolicyLegacy重新运行代码。

于 2020-06-22T07:40:01.860 回答