6

我们正在使用 Spark Thrift Server 对 Spark EMR 集群运行 SQL 查询,我们看到当 SQL 查询(转换为 Spark 作业)完成时,位于下面的 shuffle 文件/mnt/yarn/usercache/root/appcache没有被清理。这No space left on device最终会在运行多个查询后导致。

如果我们停止 Spark Thrift 服务器,则会清理 shuffle 文件。有没有办法让清理不仅在应用程序停止后运行,而且在每次作业运行后运行?我们尝试设置以下参数

yarn.nodemanager.localizer.cache.cleanup.interval-ms=6000
yarn.nodemanager.localizer.cache.target-size-mb=1000

但文件仍未清理。知道它为什么会发生以及我们如何避免它?

4

0 回答 0