0

以下是日志中的最后一条消息。我正在使用火花版本 3.1.2

INFO BlockManagerInfo: Removed broadcast_2**_piece0 on *****:32789 in memory

我在一个大表的单列中有 5 亿个字符串,我们称之为 big_table,big_table 以 parquet 格式存储。

当我这样做时select * from big_table,根据日志,查询完成得更快(我假设这个)。

但是cpu使用率是100%并且长期保持在100%。我怀疑由于有很多重复的字符串(有 770 万个唯一字符串),我们必须将 770 万个字符串反序列化并解压缩为 5 亿个字符串。我假设这会导致下图中观察到的高内存和 CPU 使用率。

我正在通过 Spark Thrift Server 提交 SQL 查询以触发。下图是spark master的htop视图,而job大概卡住了(可能卡住不是正确的词)。

在此处输入图像描述

4

0 回答 0