我有一个扁平数据集,每一行都包含用户属性(年龄、位置等)、注册和访问日期时间。每天分区。每天约 1000 万访问行,2500 万用户,500 万用户。这现在可以处理几个月的数据,并且在 1 年内,它将是约 30 亿行以上。
为了提高效率和减小大小,我正在考虑转向嵌套行:每个用户都将拥有嵌套记录,只有注册和访问日期时间。
在我做大的改变之前,假设我不会超过每行 64K 的限制,我会相应地改变我的查询。这会比展平行更好吗?
问题:
如果我使用嵌套,我会按访问日期松开每日分区,因为我将它们嵌套到一个记录中。(我可以按月分区吗?)
加载时,我需要将 CSV 转换为 JSON 并知道将每一行加载到哪个分区,所以我想我会取消分区。
- 较少分区但嵌套的查询性能应该更好?
多谢