apache-spark - Spark SQL 作业卡在驱动程序的收集阶段

翻译自：https://stackoverflow.com/questions/68584529 2021-07-30T01:45:17.177

36 次

以下是日志中的最后一条消息。我正在使用火花版本 3.1.2

INFO BlockManagerInfo: Removed broadcast_2**_piece0 on *****:32789 in memory

我在一个大表的单列中有 5 亿个字符串，我们称之为 big_table，big_table 以 parquet 格式存储。

当我这样做时select * from big_table，根据日志，查询完成得更快（我假设这个）。

但是cpu使用率是100%并且长期保持在100%。我怀疑由于有很多重复的字符串（有 770 万个唯一字符串），我们必须将 770 万个字符串反序列化并解压缩为 5 亿个字符串。我假设这会导致下图中观察到的高内存和 CPU 使用率。

我正在通过 Spark Thrift Server 提交 SQL 查询以触发。下图是spark master的htop视图，而job大概卡住了（可能卡住不是正确的词）。

0 回答 0