我有一个相当小的数据集(5~gb,150 万行),当前存储在 Bigtable 中,并通过 HBase API(Scala)访问,目的是使用 Spark(dataproc)进行数据分析。
但是,我的预算也很紧,而且 Bigtable 的成本相当高(2~ 美元/小时),所以我最终做的是在需要时删除并重新创建 Bigtable 集群。
明显的缺点是,由于我的数据的性质,填充一个新的集群需要很长时间。它全部以 JSON 格式存储在一个大文本文件中,填充集群需要 40~ 分钟。
所以我要问的是是否有更好的方法来执行这个,比如实现某种备份/快照例程?或者根本不使用 Bigtable。我在 Google Cloud 平台中找不到任何其他 HDFS 替代品。
应该指出的是,我对 Hadoop 和大数据的世界还很陌生,所以如果我错过了显而易见的事情,请原谅我的无知。