apache-spark - 在 Spark Thrift 服务器中缓存 DataFrame

Question

我有一个 Spark Thrift 服务器。我连接到 Thrift 服务器并获取 Hive 表的数据。如果我再次查询同一个表，它将再次将文件加载到内存中并执行查询。

有什么方法可以使用 Spark Thrift Server 缓存表数据？如果是，请告诉我该怎么做

score 2 · Accepted Answer

两件事情：

CACHE LAZY TABLE在这个答案中使用： Spark SQL：如何在不使用 rdd.cache()和apache spark sql 中缓存表的情况下缓存 sql 查询结果
使用spark.sql.hive.thriftServer.singleSession=true，以便其他客户端可以使用此缓存表。

记住缓存是惰性的，所以它会在第一次计算时被缓存

score 0 · Accepted Answer

请注意，驱动程序可能会消耗内存，而不是执行程序（取决于您的设置，本地/集群......），所以不要忘记为驱动程序分配更多内存。

放入数据：

CACHE TABLE today AS
SELECT * FROM datahub WHERE year=2017 AND fullname IN ("api.search.search") LIMIT 40000

从限制数据开始，然后看看内存是如何消耗的，以避免OOM异常。

2 回答 2