0

如果我知道我将存储什么样的数据(考虑到压缩),有没有办法估计行大小?

我正在看类似的东西

bson_id | 字符串(最多 200 个字符)| 整数32 | 整数32 | 整数32 | 布尔 | 布尔 | 日期时间 | 日期时间 | 日期时间 | 整数32

我正在尝试为大约 2 万亿条记录(如上述记录)以及大约 x20 的记录找到最佳的数据库解决方案

bson_id | bson_id

欢迎任何其他建议

4

1 回答 1

0

排序非常通用的答案。

据我所知,只有使用虚拟数据进行测试才是衡量此类事物的可靠方法。这里的“Dummy”表示虚假但不重复,因为强烈的重复可能会破坏压缩估计。

例如,您可以放置​​ 1m、2m、4m、8m、32m、128m 等等……记录并检查是否存在任何线性依赖关系。如果它是线性的,您可以很容易地通过一些偶然事件推断出数十亿和数万亿条记录的值。

在此类测试中,您还可以根据需要检查性能。例如,您可以增加 HDFS 的复制因子以提高读取性能。

最后,您可以检查压缩视点。

祝大数据好运!

于 2015-02-12T13:13:34.273 回答