scala - Google BigQuery Spark 连接器：如何在追加时忽略未知值

Question

我们使用 Google BigQuery Spark 连接器将存储在 Parquet 文件中的数据导入 BigQuery。使用自定义工具，我们生成了 BigQuery 所需的架构文件，并在我们的导入代码 (Scala) 中引用该文件。

但是，我们的数据并没有真正遵循固定且定义明确的模式，在某些情况下，可能会向单个数据集添加额外的列。bq这就是为什么在使用我们几乎总是使用的命令行工具来试验 BigQuery 时，--ignore_unknown_values因为否则许多导入会失败。

遗憾的是，我们在 BigQuery Spark 连接器中找不到等效的配置选项com.google.cloud.bigdataoss:bigquery-connector:0.10.1-hadoop2。它存在吗？

score 0 · Accepted Answer

不幸的是，目前还没有通过连接器进行检测，即使我们现在添加它，正式版本也需要几周时间才能在任何地方部署。我在 github 存储库中提交了一个问题以跟踪此功能请求。

同时，如果您想构建自己的连接器版本，您可以显式编辑 JobConfigurationLoad 设置，如果您使用的是旧的“直接输出格式”，则可以在BigQueryRecordWriter中编辑，如果您使用的是新的“直接输出格式”，则可以在BigQueryHelper中编辑。间接输出格式”，并添加如下一行：

loadConfig.setIgnoreUnknownValues(true);

scala - Google BigQuery Spark 连接器：如何在追加时忽略未知值

1 回答 1

Related

Reference