0

我们使用 Google BigQuery Spark 连接器将存储在 Parquet 文件中的数据导入 BigQuery。使用自定义工具,我们生成了 BigQuery 所需的架构文件,并在我们的导入代码 (Scala) 中引用该文件。

但是,我们的数据并没有真正遵循固定且定义明确的模式,在某些情况下,可能会向单个数据集添加额外的列。bq这就是为什么在使用我们几乎总是使用的命令行工具来试验 BigQuery 时,--ignore_unknown_values因为否则许多导入会失败。

遗憾的是,我们在 BigQuery Spark 连接器中找不到等效的配置选项com.google.cloud.bigdataoss:bigquery-connector:0.10.1-hadoop2。它存在吗?

4

1 回答 1

0

不幸的是,目前还没有通过连接器进行检测,即使我们现在添加它,正式版本也需要几周时间才能在任何地方部署。我在 github 存储库中提交了一个问题以跟踪此功能请求。

同时,如果您想构建自己的连接器版本,您可以显式编辑 JobConfigurationLoad 设置,如果您使用的是旧的“直接输出格式”,则可以在BigQueryRecordWriter中编辑,如果您使用的是新的“直接输出格式”,则可以在BigQueryHelper中编辑。间接输出格式”,并添加如下一行:

loadConfig.setIgnoreUnknownValues(true);
于 2017-03-15T23:26:13.340 回答