1

我正在通过 Hadoop 传输非结构化事件数据,并希望将其放在 BigQuery 中。我有一个包含大部分字段的架构,但有些字段我想忽略或不知道。

BigQuery 有一个名为ignoreUnknownValues的配置字段,但我不知道如何从 Hadoop 连接器打开它。这可能吗?

4

1 回答 1

2

不幸的是,Hadoop 的 BigQuery 连接器目前不支持此功能。我们一定会在下一个版本中添加更灵活的配置自定义,并直接支持已知的配置设置,例如ignoreUnknownValues. 同时,如果您准备从源代码构建,您应该能够在BigQueryRecordWriter.java 的第 317 行之后添加:

loadConfig.setIgnoreUnknownValues(true);

然后,您只需将您的自定义 BigQuery 连接器 jarfilemvn -Phadoop1 packagemvn -Phadoop2 package上传到 GCS 中的某个位置,最后在重新部署之前修改BIGQUERY_CONNECTOR_JARbdutil_env.sh的指向您的自定义 jarfile。

于 2015-02-03T18:21:55.067 回答