我正在处理存储在 Amazon S3 上的镶木地板文件。需要提取这些文件并将其中的数据加载到 Azure 数据仓库中。
我的计划是:
Amazon S3 -> 使用 SAP BODS 将 parquet 文件移动到 Azure Blob -> 在这些 parquet 文件上创建外部表 -> 暂存 -> Fact/ Dim 表
现在的问题是,在其中一个镶木地板文件中有一列存储为array<string>
. 我可以使用该列的 varchar 数据类型在其上创建外部表,但如果我对该外部表执行任何 sql 查询操作(即 Select),则会引发以下错误。
消息 106000,第 16 层,状态 1,第 3 行
HdfsBridge::recordReaderFillBuffer - 填充记录读取器缓冲区时遇到意外错误:ClassCastException: optional group status (LIST) {
重复组包{
optional binary array_element (UTF8);
}
} 不是原始的
我尝试了不同的数据类型,但无法在该外部表上运行选择查询。
如果还有其他选择,请告诉我。
谢谢