我有一个 Spark Thrift 服务器。我连接到 Thrift 服务器并获取 Hive 表的数据。如果我再次查询同一个表,它将再次将文件加载到内存中并执行查询。
有什么方法可以使用 Spark Thrift Server 缓存表数据?如果是,请告诉我该怎么做
我有一个 Spark Thrift 服务器。我连接到 Thrift 服务器并获取 Hive 表的数据。如果我再次查询同一个表,它将再次将文件加载到内存中并执行查询。
有什么方法可以使用 Spark Thrift Server 缓存表数据?如果是,请告诉我该怎么做
两件事情:
CACHE LAZY TABLE
在这个答案中使用: Spark SQL:如何在不使用 rdd.cache()和apache spark sql 中缓存表的情况下缓存 sql 查询结果spark.sql.hive.thriftServer.singleSession=true
,以便其他客户端可以使用此缓存表。记住缓存是惰性的,所以它会在第一次计算时被缓存