我正在尝试使用 Tachyon 实现 RDD/Dataframe 共享。据我了解,使用 HDFS underFS,写入是异步的(在后台发生对 HDFS 的复制),因此应该更快,但在我的测试中,我发现使用 HDFS underFS 的 Tachyon 的写入速度要慢 2-6 倍。
从这篇 Tachyon 论文中,我看到:
“我们在 Spark 和 MapReduce 集成中使 [基于血统的容错] 可配置”
如何让 Spark 在 Tachyon 中使用基于沿袭的容错?
注意:我使用 Spark Dataframe 方法df.write.parquet
和 RDD 方法rdd.saveAsObjectFile
将我的 Dataframes/RDD 保存到 Tachyon。