1

我想确保我了解超光速粒子。使用带有 hdfs 的 Tachyon 或多或少等同于使用 MEMORY_AND_DISK 持久化 RDD。在这两种情况下,当数据量超出内存时,它们就会被撞到硬盘上。

我了解由于 jvm 垃圾收集导致的性能差异。我只是在询问过度溢出行为。

4

1 回答 1

1

在磁盘中持久化 RDD 的推荐方法是使用本地 fs,而不是 dfs -check SPARK_LOCAL_DIRS parameter-。这是因为 spark 不跟踪 dfs 所做的数据移动。此外,本地 fs 比 dfs 快得多,因为没有复制等......

在集群中,tachyon 有可能在将数据写入 (d)fs 之前使用其他节点的内存进行溢出。所以,如果网络 + 内存成本 < 磁盘成本,这会更好。

在单个节点中,我认为 tachyon 除了消除 gc 开销之外不会带来任何性能提升。

于 2017-02-20T16:39:05.140 回答