问题标签 [apache-spark-1.6]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
10328 浏览

apache-spark - 从 PySpark DataFrame 中删除 NULL 、 NAN 和空白空间

我在 PySpark 中有一个数据框,其中包含空白空间、Null 和 Nan。我想删除具有任何这些的行。我尝试了以下命令,但是似乎没有任何效果。

下面是数据框:

我错过了什么?处理 NULL、Nan 或空格以便在实际计算中没有问题的最佳方法是什么?

0 投票
2 回答
4970 浏览

apache-spark - PySpark-如何使用一列中的行值来访问与行值同名的另一列

我有一个 PySpark df:

我最终想创建另一列“out”,其值基于“ref”列。例如,在第一行 ref 列中有 b1 作为值。在“out”列中,我想查看“b1”列的值,即 23。这是预期的输出:

请告知如何实现“out”列。我正在使用 Spark 1.6 版本。谢谢

0 投票
1 回答
1559 浏览

apache-spark - Pyspark - 处理异常并在 pyspark 数据框中引发 RuntimeError

我有一个数据框,我正在尝试根据现有列的值创建一个新列:

我想在最后一个 .when 条件中实现的是,如果列 dfg['list'] 值不属于列表中的元素之一 = ["A","B","C","D" ,'E','F'],我想用一条消息引发运行时错误。不确定如何在 pyspark 中执行此操作。此外,如果我基于条件语句创建列,即 .when 和 .otherwise,如何使用 try except 块。

我正在使用 pyspark 1.6。任何帮助深表感谢。

0 投票
1 回答
5714 浏览

pyspark - 以编程方式指定 PySpark 中的架构

我正在尝试从 rdd 创建一个数据框。我想明确指定模式。下面是我尝试过的代码片段。

当我尝试 new_df.show()时,出现以下错误:

有人可以帮我吗?

PS:我可以使用以下命令显式类型转换并从现有 df 创建一个新 df:

0 投票
1 回答
4770 浏览

apache-spark - PySpark:计算行最小值忽略零和空值

我想根据数据框中现有的列子集创建一个新列(v5)。

示例数据框:

提供示例数据框的另一个视图:

它由以下人员创建:

最终,我想做的是创建另一列 v5,它是对应于 v1 和 v2 的最小值的值,忽略任一列中存在的零和空值。假设 v1 是键,v3 是值对。类似地,v2 是键,v4 是值。例如,在第一行:v1 和 v2 中,最小值属于 v1 即 2,因此 v5 列的输出应该是 7.0 同样,在第二行:忽略 v1 和 v2 的零值和空值,输出应该为 2.0

原始数据框有五列作为键,五列分别作为值所需的输出:

我试图通过 udf 中的最少功能来完成此操作,但无法使其正常工作。我正在使用 PySpark 1.6。任何帮助深表感谢。

0 投票
1 回答
313 浏览

apache-spark-1.6 - Oracle 到 Spark/Hive:如何将“最大”功能的使用转换为 Spark 1.6 数据帧

oracle中的表有37列。列的名称是:年、月、d1、d2 ....d34。d1..d34 中的数据都是整数。还有一个名为 maxd 的列是空白的。对于每一行,我必须找到 d1,d2....d34 中的最大值并将其放入 maxd 列。甲骨文代码:

我在 spark1.6 中创建了一个包含 37 列的确切集合的数据框。现在,需要编写代码来计算 d1,d2...d34 中每一行的最大值并将其存储在 maxd 列中。请帮忙。

0 投票
2 回答
2953 浏览

apache-spark - 在 Spark 中为 rowsBetween 和 rangeBetween 指定默认值

我有一个关于 Sparks Dataframe 1.6 中的窗口操作的问题。

假设我有下表:

目前我正在使用 rowsBetween 函数:

这给了我以下结果:

我不想实现的是在没有前置行时设置默认值(例如在 lag() 和 lead() 中)。例如:'0' 这样我得到的结果如下:

我已经查看了文档,但 Spark 1.6 不允许这样做,我想知道是否有某种解决方法。

非常感谢 !

0 投票
3 回答
1632 浏览

apache-spark - Pyspark:如何将现有非空列的元组列表作为数据框中的列值之一返回

我正在使用一个 pyspark 数据框,它是:

要创建上述数据框:

我想创建另一列“g”,其值是基于现有非空列的元组列表。元组列表的形式为:

((a栏,b栏),(c栏,d栏),(e栏,f栏))

输出 col 的要求: 1)在创建元组列表时只考虑非空列。2) 返回元组列表。

因此,带有“g”列的最终数据框将是:

在“g”列中,第二行元组只有两对而不是三对,因为对于第二行,我们省略了列“a”和“b”值,因为它们是空值。

我不确定如何动态省略列中的空值并形成元组列表

我试图通过 udf 部分实现最后一列:

我尝试将 udf 声明为 ArrayType,但它不起作用。任何帮助将非常感激。我正在使用 pyspark 1.6。谢谢!

0 投票
0 回答
618 浏览

apache-spark - 未找到 Spark 临时表

我正在尝试使用自定义输入运行 pySpark 作业,以进行测试。该作业具有三组输入,每组都从不同元存储数据库中的表中读取。

在 spark 中读取数据:hiveContext.table('myDb.myTable')

测试输入是三个文件。为了不更改任何原始代码,我将所有三个输入读入DataFrames,并尝试使用myDF.registerTempTable('myDb.myTable').

问题是火花失败了org.apache.spark.sql.catalyst.analysis.NoSuchTableException

我也试过:

但这也失败了。

知道为什么找不到表吗?

使用 Spark 1.6

0 投票
0 回答
252 浏览

dataframe - 如何在pyspark中为Dataframe定义分区?

假设我在 pyspark 中将 parquet 文件作为 Dataframe 读取,我该如何指定它必须有多少个分区?

我像这样阅读镶木地板文件-

如何指定要使用的分区数?