问题标签 [spark2.4.4]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
46 浏览

pyspark - 流式应用中特定的 Spark 写操作随时间逐渐增加

我有一个长期运行的火花流工作。执行时间逐渐线性增加,在 60 分钟内处理时间从 40 秒增加到 90 秒。

这种增加发生在 HDFS 写入语句中:

应用程序启动时,此保存操作需要 1-2 秒。

随着时间的推移,任务本身保持 2 秒(第一张图片,1 个完成的阶段,耗时 2 秒),但整个查询持续时间急剧增加(第二张图片,总时间 40 秒)。

剩余 2 秒的任务

作业时间增加到 40 秒

我还在 python 中输入了一些日志记录,在同一操作中我可以看到瓶颈: 在此处输入图像描述

这可能是什么原因?

0 投票
0 回答
13 浏览

apache-spark - 蜂巢直线和火花负载计数与蜂巢表不匹配

我正在使用 spark 2.4.4 和 hive 2.3 ...

使用 spark,我使用 DF.insertInto(hiveTable) 将数据框加载为 Hive 表

如果在运行期间创建新表(当然是在通过 spark.sql 插入插入之前)或由 spark 2.4.4 创建的现有表 - 一切正常。

问题是,如果我尝试加载一些现有表(创建 spark 2.2 或更早版本的旧表) - 面临 COUNT 条记录的问题。通过直线与 spark sql 完成目标配置单元表的计数时的差异计数。

请协助。