google-bigquery - 大数据集上的扁平化+分区与嵌套记录

Question

我有一个扁平数据集，每一行都包含用户属性（年龄、位置等）、注册和访问日期时间。每天分区。每天约 1000 万访问行，2500 万用户，500 万用户。这现在可以处理几个月的数据，并且在 1 年内，它将是约 30 亿行以上。

为了提高效率和减小大小，我正在考虑转向嵌套行：每个用户都将拥有嵌套记录，只有注册和访问日期时间。

在我做大的改变之前，假设我不会超过每行 64K 的限制，我会相应地改变我的查询。这会比展平行更好吗？

问题：

多谢

score 0 · Accepted Answer

1：json数据的实际导入行大小限制是20MB，不是64k。我已经提交了一个文档错误，以便在我们的公共文档中更新它。

我的猜测是，更复杂的查询和加载逻辑将意味着嵌套数据不会带来太多好处。您最好保持数据非规范化和扁平化，按天对数据进行分区，并在查询中需要的表的联合上进行查询。我们正在研究使在查询中指定表范围变得更容易的方法，这可能会有所帮助。

1 回答 1