3

我有一个 Spark Thrift 服务器。我连接到 Thrift 服务器并获取 Hive 表的数据。如果我再次查询同一个表,它将再次将文件加载到内存中并执行查询。

有什么方法可以使用 Spark Thrift Server 缓存表数据?如果是,请告诉我该怎么做

4

2 回答 2

2

两件事情:

记住缓存是惰性的,所以它会在第一次计算时被缓存

于 2017-08-16T09:55:26.900 回答
0

请注意,驱动程序可能会消耗内存,而不是执行程序(取决于您的设置,本地/集群......),所以不要忘记为驱动程序分配更多内存。

放入数据:

CACHE TABLE today AS
SELECT * FROM datahub WHERE year=2017 AND fullname IN ("api.search.search") LIMIT 40000

从限制数据开始,然后看看内存是如何消耗的,以避免OOM异常。

Spark 历史 Web UI

于 2017-10-17T16:07:38.337 回答