1

Spark中indexedRDD工作的状态如何?有人看过SnappyData吗?他们提出了一些关于能够对数据帧进行快速随机读取和写入的声明。

4

1 回答 1

1

是 Amplab 在 IndexedRdd 上的工作。自 2015 年 9 月以来,该项目没有任何提交,并且似乎该方法需要重新扫描整个 RDD 以在每次更新时构建一个新的。有关在Spark 的未来版本(可能是 Spark 2.0)中如何解决状态管理的信息,请参阅此处。这依赖于以配置的时间间隔检查点 RDD 状态。但是,更明智的做法是考虑为随机 RW 使用第三方数据存储,例如CassandraGemFireRedis等。 内存中的 SQL 数据存储SnappyData也在这个阵营中,但也允许数据存储嵌入在 spark 中运行执行者避免序列化/反序列化问题。

于 2016-02-27T18:49:52.730 回答