0

自从我们从 CDH 迁移到 HDP(spark 2.2 到 2.3)后,我遇到了一些数据删除问题。这些表是从 hdfs 位置读取的,并且在运行读取和处理这些表的 spark 作业一段时间后,它会抛出table not found 异常,当我们检查该位置时,所有记录都消失了。在读取该表之前我看到的 spark(Java) 代码中,调用了 clearCache()。它可以删除那些文件吗?如果是,我该如何解决?

4

1 回答 1

0

我认为,您应该查看源代码-Spark 有自己的缓存用户数据实现,并且在通过 CacheManager 管理此缓存时,他们从不删除相同的数据。看一看

于 2020-08-19T09:57:19.383 回答