Google BigQuery 是否有计划实施原生 JSON 支持?
我正在考虑将 hive 数据 (~20T) 迁移到 Google BigQuery,但 Hive 中的表定义包含 BigQuery 不支持的映射类型。
例如,下面的 HiveQL:
select gid, payload['src'] from data_repository;
虽然,它可以通过使用正则表达式来解决。
Google BigQuery 是否有计划实施原生 JSON 支持?
我正在考虑将 hive 数据 (~20T) 迁移到 Google BigQuery,但 Hive 中的表定义包含 BigQuery 不支持的映射类型。
例如,下面的 HiveQL:
select gid, payload['src'] from data_repository;
虽然,它可以通过使用正则表达式来解决。
自 2012 年 10 月 1 日起,BigQuery 支持以换行符分隔的 JSON 进行导入和导出。
博文:http: //googledevelopers.blogspot.com/2012/10/got-big-json-bigquery-expands-data.html
有关数据格式的文档:https ://developers.google.com/bigquery/docs/import#dataformats
您最好的选择是在导入之前将所有类型强制转换为 csv,如果您有复杂的字段,请通过查询中的正则表达式将它们分解(如您所建议的那样)。
也就是说,我们正在积极研究对新输入格式的支持,并对哪些格式最有用的反馈感兴趣。底层查询引擎 ( Dremel ) 支持类似于 hive 映射类型的类型,但是 BigQuery 目前不公开用于提取嵌套记录的机制。