我们使用 Google BigQuery Spark 连接器将存储在 Parquet 文件中的数据导入 BigQuery。使用自定义工具,我们生成了 BigQuery 所需的架构文件,并在我们的导入代码 (Scala) 中引用该文件。
但是,我们的数据并没有真正遵循固定且定义明确的模式,在某些情况下,可能会向单个数据集添加额外的列。bq
这就是为什么在使用我们几乎总是使用的命令行工具来试验 BigQuery 时,--ignore_unknown_values
因为否则许多导入会失败。
遗憾的是,我们在 BigQuery Spark 连接器中找不到等效的配置选项com.google.cloud.bigdataoss:bigquery-connector:0.10.1-hadoop2
。它存在吗?