问题标签 [apache-spark-1.6]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

111 问题

0 投票

1 回答

10328 浏览

apache-spark - 从 PySpark DataFrame 中删除 NULL 、 NAN 和空白空间

我在 PySpark 中有一个数据框，其中包含空白空间、Null 和 Nan。我想删除具有任何这些的行。我尝试了以下命令，但是似乎没有任何效果。

下面是数据框：

我错过了什么？处理 NULL、Nan 或空格以便在实际计算中没有问题的最佳方法是什么？

2018-01-24T11:40:39.280

0 投票

2 回答

4970 浏览

apache-spark - PySpark-如何使用一列中的行值来访问与行值同名的另一列

我有一个 PySpark df：

我最终想创建另一列“out”，其值基于“ref”列。例如，在第一行 ref 列中有 b1 作为值。在“out”列中，我想查看“b1”列的值，即 23。这是预期的输出：

请告知如何实现“out”列。我正在使用 Spark 1.6 版本。谢谢

apache-spark pyspark apache-spark-sql pyspark-sql apache-spark-1.6

2018-01-24T22:40:02.203

0 投票

1 回答

1559 浏览

apache-spark - Pyspark - 处理异常并在 pyspark 数据框中引发 RuntimeError

我有一个数据框，我正在尝试根据现有列的值创建一个新列：

我想在最后一个 .when 条件中实现的是，如果列 dfg['list'] 值不属于列表中的元素之一 = ["A","B","C","D" ,'E','F']，我想用一条消息引发运行时错误。不确定如何在 pyspark 中执行此操作。此外，如果我基于条件语句创建列，即 .when 和 .otherwise，如何使用 try except 块。

我正在使用 pyspark 1.6。任何帮助深表感谢。

apache-spark pyspark spark-dataframe pyspark-sql apache-spark-1.6

2018-01-31T20:31:57.327

0 投票

1 回答

5714 浏览

pyspark - 以编程方式指定 PySpark 中的架构

我正在尝试从 rdd 创建一个数据框。我想明确指定模式。下面是我尝试过的代码片段。

当我尝试 new_df.show()时，出现以下错误：

有人可以帮我吗？

PS：我可以使用以下命令显式类型转换并从现有 df 创建一个新 df：

pyspark apache-spark-1.6

2018-02-01T11:04:53.663

0 投票

1 回答

4770 浏览

apache-spark - PySpark：计算行最小值忽略零和空值

我想根据数据框中现有的列子集创建一个新列（v5）。

示例数据框：

提供示例数据框的另一个视图：

它由以下人员创建：

最终，我想做的是创建另一列 v5，它是对应于 v1 和 v2 的最小值的值，忽略任一列中存在的零和空值。假设 v1 是键，v3 是值对。类似地，v2 是键，v4 是值。例如，在第一行：v1 和 v2 中，最小值属于 v1 即 2，因此 v5 列的输出应该是 7.0 同样，在第二行：忽略 v1 和 v2 的零值和空值，输出应该为 2.0

原始数据框有五列作为键，五列分别作为值所需的输出：

我试图通过 udf 中的最少功能来完成此操作，但无法使其正常工作。我正在使用 PySpark 1.6。任何帮助深表感谢。

apache-spark pyspark apache-spark-sql pyspark-sql apache-spark-1.6

2018-02-06T19:16:27.197

0 投票

1 回答

313 浏览

apache-spark-1.6 - Oracle 到 Spark/Hive：如何将“最大”功能的使用转换为 Spark 1.6 数据帧

oracle中的表有37列。列的名称是：年、月、d1、d2 ....d34。d1..d34 中的数据都是整数。还有一个名为 maxd 的列是空白的。对于每一行，我必须找到 d1,d2....d34 中的最大值并将其放入 maxd 列。甲骨文代码：

我在 spark1.6 中创建了一个包含 37 列的确切集合的数据框。现在，需要编写代码来计算 d1,d2...d34 中每一行的最大值并将其存储在 maxd 列中。请帮忙。

apache-spark-1.6

2018-02-08T09:51:21.390

0 投票

2 回答

2953 浏览

apache-spark - 在 Spark 中为 rowsBetween 和 rangeBetween 指定默认值

我有一个关于 Sparks Dataframe 1.6 中的窗口操作的问题。

假设我有下表：

目前我正在使用 rowsBetween 函数：

这给了我以下结果：

我不想实现的是在没有前置行时设置默认值（例如在 lag() 和 lead() 中）。例如：'0' 这样我得到的结果如下：

我已经查看了文档，但 Spark 1.6 不允许这样做，我想知道是否有某种解决方法。

非常感谢！

apache-spark apache-spark-sql apache-spark-1.6

2018-02-15T10:52:10.840

0 投票

3 回答

1632 浏览

apache-spark - Pyspark：如何将现有非空列的元组列表作为数据框中的列值之一返回

我正在使用一个 pyspark 数据框，它是：

要创建上述数据框：

我想创建另一列“g”，其值是基于现有非空列的元组列表。元组列表的形式为：

（（a栏，b栏），（c栏，d栏），（e栏，f栏））

输出 col 的要求： 1）在创建元组列表时只考虑非空列。2) 返回元组列表。

因此，带有“g”列的最终数据框将是：

在“g”列中，第二行元组只有两对而不是三对，因为对于第二行，我们省略了列“a”和“b”值，因为它们是空值。

我不确定如何动态省略列中的空值并形成元组列表

我试图通过 udf 部分实现最后一列：

我尝试将 udf 声明为 ArrayType，但它不起作用。任何帮助将非常感激。我正在使用 pyspark 1.6。谢谢！

apache-spark pyspark spark-dataframe pyspark-sql apache-spark-1.6

2018-02-19T05:30:42.587

0 投票

0 回答

618 浏览

apache-spark - 未找到 Spark 临时表

我正在尝试使用自定义输入运行 pySpark 作业，以进行测试。该作业具有三组输入，每组都从不同元存储数据库中的表中读取。

在 spark 中读取数据：hiveContext.table('myDb.myTable')

测试输入是三个文件。为了不更改任何原始代码，我将所有三个输入读入DataFrames，并尝试使用myDF.registerTempTable('myDb.myTable').

问题是火花失败了org.apache.spark.sql.catalyst.analysis.NoSuchTableException。

我也试过：

但这也失败了。

知道为什么找不到表吗？

使用 Spark 1.6

apache-spark pyspark apache-spark-1.6 hive-metastore

2018-03-08T21:29:15.627

0 投票

0 回答

252 浏览

dataframe - 如何在pyspark中为Dataframe定义分区？

假设我在 pyspark 中将 parquet 文件作为 Dataframe 读取，我该如何指定它必须有多少个分区？

我像这样阅读镶木地板文件-

如何指定要使用的分区数？

dataframe pyspark data-partitioning apache-spark-1.6

2018-05-13T07:45:41.457

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark-1.6]

Reference