问题标签 [apache-spark-2.3]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
878 浏览

airflow-scheduler - SparkSubmitOperator 与 SSHOperator 用于在气流中提交 pyspark 应用程序

我有不同的火花和气流服务器。而且我在气流服务器中没有火花二进制文件。我能够很好地使用 SSHOperator 并在集群模式下运行 spark 作业。我想知道从长远来看,使用 SSHOperator 或 SparkSubmitOperator 提交 pyspark 作业有什么好处。任何帮助将不胜感激。

0 投票
1 回答
1443 浏览

hadoop-yarn - Airflow:使用 LivyBatchOperator 在 yarn 中提交 pyspark 应用程序

我遇到了一个叫做LivyBatchOperator的东西,但找不到一个很好的例子来在气流中提交 pyspark 应用程序。任何有关此的信息将不胜感激。提前致谢。

0 投票
0 回答
12 浏览

apache-spark-2.3 - 当左侧数据较大(~1B 记录)且具有幂律且右侧数据较小(但 > 2GB)时,我是否应该启用 shufflehashjoin

我有一个非常大的数据集,有 3.5 亿到 10 亿条记录,具体取决于批次。在右侧,我有一个小得多的数据集,通常大小为 1000 万左右,而不是更多。我不能简单地广播右侧(有时它会超过 8BG,这是一个硬限制)。最重要的是,我的左侧在连接键上有幂律分布。

我尝试通过添加随机盐来随机爆炸右侧键的技巧,以对抗左侧的幂律分布。

这可以按预期工作,但是对于偶尔的批处理,我会遇到内存超出限制的容器故障(19GB 中的 19.5GB)。每个执行程序我只能达到 17GB + 2GB 开销。我尝试减少内核以使每个线程拥有更多内存,但仍然会发生同样的问题。该问题每 50 批左右发生 2 或 3 次。当作业从故障点重新启动时,相同的批次会正确运行。

连接的右侧是通过广播连接将小数据连接到中等大小的数据而产生的,连接的较大一侧是检查点,以便在发生错误时节省时间。

通过将非常大的数据连接到 x 来获得结果。

我的问题是,在这种情况下,重新启用(默认禁用)shuffle hash join 是否是一个更好的选择。我的理解是,鉴于我的右侧比连接的左侧小得多,因此随机播放连接可能是比排序合并连接(默认启用)更好的选择。

我使用 spark 2.3(由于平台限制无法升级)。我确实有一些自定义催化剂表达式,但它们已经过测试,并且不会在其他工作中崩溃。// 我列出这个只是为了同谋。

注意:由于 IP,我无法粘贴代码示例。

0 投票
1 回答
162 浏览

apache-spark - SparkSession.catalog.clearCache() 可以从 hdfs 中删除数据吗?

自从我们从 CDH 迁移到 HDP(spark 2.2 到 2.3)后,我遇到了一些数据删除问题。这些表是从 hdfs 位置读取的,并且在运行读取和处理这些表的 spark 作业一段时间后,它会抛出table not found 异常,当我们检查该位置时,所有记录都消失了。在读取该表之前我看到的 spark(Java) 代码中,调用了 clearCache()。它可以删除那些文件吗?如果是,我该如何解决?

0 投票
1 回答
99 浏览

scala - 在 Spark 中找到最长的连续条纹

我有一个像这样的单列数据框

我必须得到最长的连续时间开始日期和结束日期。所以在上面的例子中我有这样的输出

我的方法:对数据进行排序并找到前一行的滞后,每当有滞后 > 1 时,重置周期长度但我无法找到在特定条件下重置周期的方法。我正在使用火花 2.3

0 投票
0 回答
223 浏览

python - pyspark 数据框列值替换为 pyspark 2.3 版中另一个列表中的索引

我有一个 pyspark 数据框,其中列值作为列表。我需要用基于另一个 python 列表的索引替换列表中的值

在 pyspark 中创建 udf 不起作用

谁能帮我我哪里错了

0 投票
2 回答
43 浏览

python - 将 pyspark 数据帧写入 csv,不带外引号

我有一个单列数据框,如下所示。我正在使用 pyspark 2.3 版写入 csv。

默认情况下,代码的输出是

如何删除外部引号?我尝试过 option('quoteAll','false') 和 option('quote',None) 都不起作用。

0 投票
1 回答
47 浏览

apache-spark - Spark 2.3 Stream-Stream Join 丢失左表键

我正在尝试使用 Spark 2.3.0 实现流连接玩具

当条件匹配时,流连接工作正常,但即使使用 leftOuterJoin,条件不匹配时也会丢失左流值。

提前致谢

这是我的源代码和数据,基本上,我正在创建两个套接字,一个是 9999 作为右流源,一个是 9998 作为左流源。

样本数据:

左插座:

正确的流数据:

0 投票
1 回答
455 浏览

arrays - 如何将数组数组(字符串类型)转换为结构 - Spark/Scala?

我有一个数据框

我希望将列转换fam_name为命名结构的数组

我能够转换family_name为数组,如下所示

sch是所需类型的模式变量。

如何将列转换ararray<struct<>>

编辑:

我正在使用 Spark 2.3.2