我有一个问题,我需要非常快速地将大量数据(5+ 十亿行)加载到数据库中(理想情况下少于 30 分钟,但越快越好),最近有人建议我研究 postgresql(我用 mysql 失败了并且正在查看 hbase/cassandra)。我的设置是我有一个生成大量数据的集群(目前有 8 个服务器),我正在考虑在集群中的每台机器上本地运行数据库,它在本地快速写入,然后在最后(或在整个数据生成过程中)数据是合并在一起。数据没有任何顺序,所以我不在乎它在哪个特定的服务器上(只要它最终在那里)。
我的问题是,有没有什么好的教程或地方可以学习 PostgreSQL 自动分片(我发现像 sykpe 这样的公司在做自动分片但没有教程,我想自己玩这个)?我正在尝试做的事情可能吗?因为数据没有任何顺序,我打算使用自动递增的 ID 号,如果合并数据会导致冲突(这不再是一个大问题了)?
更新:下面弗兰克的想法消除了我所询问的自动递增冲突问题。现在的问题基本上是,我如何了解自动分片,它是否支持将数据分布式上传到多个服务器?