我在 Greenplum DB 中有 TB 的结构化数据。我需要对我的数据运行本质上是 MapReduce 作业。
我发现自己至少重新实现了 MapReduce 的功能,以便这些数据适合内存(以流式方式)。
然后我决定在别处寻找更完整的解决方案。
我查看了 Pivotal HD + Spark,因为我使用的是 Scala,而 Spark 基准测试令人惊叹。但我相信这背后的数据存储 HDFS 的效率将低于 Greenplum。(注意“我相信”。我很高兴知道我错了,但请提供一些证据。)
因此,为了与 Greenplum 存储层保持一致,我查看了 Pivotal 的 HAWQ,它基本上是 Greenplum 上带有 SQL 的 Hadoop。
这种方法丢失了很多功能。主要是Spark的使用。
还是只使用内置的 Greenplum 功能更好?
所以我正处于不知道哪种方式最好的十字路口。我想处理非常适合关系数据库模型的 TB 数据,我想要 Spark 和 MapReduce 的好处。
我要求太多了吗?