apache-spark - 如果我没有足够的内存，spark 会做什么？

Question

我是 Spark 的新手，我发现文档说 Spark 会将数据加载到内存中以使迭代算法更快。

但是如果我有一个 10GB 的日志文件并且只有 2GB 内存呢？Spark 会像往常一样将日志文件加载到内存中吗？

score 16 · Accepted Answer

我认为这个问题在 Spark 网站（ https://spark.apache.org/faq.html ）的 FAQ 面板中已经得到了很好的回答：

如果我的数据集不适合内存怎么办？ 通常每个数据分区都很小，并且确实适合内存，并且这些分区一次处理几个。对于不适合内存的非常大的分区，Spark 的内置运算符对数据集执行外部操作。
当缓存的数据集不适合内存时会发生什么？ Spark 可以将其溢出到磁盘或在每次请求时重新计算不适合 RAM 的分区。默认情况下，它使用重新计算，但您可以将数据集的存储级别设置为 MEMORY_AND_DISK 以避免这种情况。

score 11 · Accepted Answer

这里的关键是要注意RDD 被分成多个分区（请参阅此答案末尾的方法），并且每个分区都是一组元素（例如可以是文本行或整数）。分区用于并行化不同计算单元中的计算。

所以关键不是文件是否太大，而是分区是否。在这种情况下，在常见问题解答中：“Spark 的操作员将数据溢出到磁盘，如果它不适合内存，允许它在任何大小的数据上运行良好”。大分区产生OOM的问题在这里得到解决。

现在，即使分区可以放入内存，这样的内存也可能是满的。在这种情况下，它会从内存中驱逐另一个分区以适应新分区。驱逐可能意味着：

完全删除分区：在这种情况下，如果再次需要分区，则重新计算。
分区被持久化在指定的存储级别。每个 RDD 都可以使用此存储级别“标记”为缓存/持久化，请参阅this on how to。

内存管理在这里得到了很好的解释：“Spark 将分区存储在内存中的 LRU 缓存中。当缓存达到其大小限制时，它会从其中驱逐条目（即分区）。当分区具有“磁盘”属性时（即您的持久性级别允许将分区存储在磁盘上），它将被写入HDD并释放它所占用的内存，除非您请求它。当您请求它时，它将被读入内存，如果没有足够的内存缓存中的其他一些较旧的条目将被逐出。如果您的分区没有“磁盘”属性，则逐出仅意味着销毁缓存条目而不将其写入硬盘”。

初始文件/数据的分区方式取决于数据的格式和类型，以及用于创建 RDD 的函数，请参阅this。例如：

如果您已经有一个集合（例如 java 中的列表），您可以使用 parallelize() 并指定分区数。集合中的元素将按分区分组。
如果在 HDFS 中使用外部文件：“Spark 为文件的每个块创建一个分区（HDFS 中的块默认为 128MB）”。
如果从本地文本文件中读取，每一行（以新行“\n”结尾，结束字符可以更改，请参阅this）是一个元素，几行形成一个分区。

最后，我建议您阅读本文以获取更多信息，并决定如何选择分区数量（太多或太少？）。

score 0 · Accepted Answer

它不会加载完整的 10G，因为您没有足够的可用内存。根据我的经验，根据您使用数据的方式，会发生以下三种情况之一：

如果您尝试缓存 10GB：

你会得到一个OOME
即将加载数据

如果您只是处理数据：

数据将被换入/换出内存

当然，这与您的代码和您正在应用的转换高度相关。

apache-spark - 如果我没有足够的内存，spark 会做什么？

3 回答 3

Related

Reference