问题标签 [apache-spark-1.6]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 从 PySpark DataFrame 中删除 NULL 、 NAN 和空白空间
我在 PySpark 中有一个数据框,其中包含空白空间、Null 和 Nan。我想删除具有任何这些的行。我尝试了以下命令,但是似乎没有任何效果。
下面是数据框:
我错过了什么?处理 NULL、Nan 或空格以便在实际计算中没有问题的最佳方法是什么?
apache-spark - PySpark-如何使用一列中的行值来访问与行值同名的另一列
我有一个 PySpark df:
我最终想创建另一列“out”,其值基于“ref”列。例如,在第一行 ref 列中有 b1 作为值。在“out”列中,我想查看“b1”列的值,即 23。这是预期的输出:
请告知如何实现“out”列。我正在使用 Spark 1.6 版本。谢谢
apache-spark - Pyspark - 处理异常并在 pyspark 数据框中引发 RuntimeError
我有一个数据框,我正在尝试根据现有列的值创建一个新列:
我想在最后一个 .when 条件中实现的是,如果列 dfg['list'] 值不属于列表中的元素之一 = ["A","B","C","D" ,'E','F'],我想用一条消息引发运行时错误。不确定如何在 pyspark 中执行此操作。此外,如果我基于条件语句创建列,即 .when 和 .otherwise,如何使用 try except 块。
我正在使用 pyspark 1.6。任何帮助深表感谢。
pyspark - 以编程方式指定 PySpark 中的架构
我正在尝试从 rdd 创建一个数据框。我想明确指定模式。下面是我尝试过的代码片段。
当我尝试 new_df.show()时,出现以下错误:
有人可以帮我吗?
PS:我可以使用以下命令显式类型转换并从现有 df 创建一个新 df:
apache-spark - PySpark:计算行最小值忽略零和空值
我想根据数据框中现有的列子集创建一个新列(v5)。
示例数据框:
提供示例数据框的另一个视图:
它由以下人员创建:
最终,我想做的是创建另一列 v5,它是对应于 v1 和 v2 的最小值的值,忽略任一列中存在的零和空值。假设 v1 是键,v3 是值对。类似地,v2 是键,v4 是值。例如,在第一行:v1 和 v2 中,最小值属于 v1 即 2,因此 v5 列的输出应该是 7.0 同样,在第二行:忽略 v1 和 v2 的零值和空值,输出应该为 2.0
原始数据框有五列作为键,五列分别作为值所需的输出:
我试图通过 udf 中的最少功能来完成此操作,但无法使其正常工作。我正在使用 PySpark 1.6。任何帮助深表感谢。
apache-spark-1.6 - Oracle 到 Spark/Hive:如何将“最大”功能的使用转换为 Spark 1.6 数据帧
oracle中的表有37列。列的名称是:年、月、d1、d2 ....d34。d1..d34 中的数据都是整数。还有一个名为 maxd 的列是空白的。对于每一行,我必须找到 d1,d2....d34 中的最大值并将其放入 maxd 列。甲骨文代码:
我在 spark1.6 中创建了一个包含 37 列的确切集合的数据框。现在,需要编写代码来计算 d1,d2...d34 中每一行的最大值并将其存储在 maxd 列中。请帮忙。
apache-spark - 在 Spark 中为 rowsBetween 和 rangeBetween 指定默认值
我有一个关于 Sparks Dataframe 1.6 中的窗口操作的问题。
假设我有下表:
目前我正在使用 rowsBetween 函数:
这给了我以下结果:
我不想实现的是在没有前置行时设置默认值(例如在 lag() 和 lead() 中)。例如:'0' 这样我得到的结果如下:
我已经查看了文档,但 Spark 1.6 不允许这样做,我想知道是否有某种解决方法。
非常感谢 !
apache-spark - Pyspark:如何将现有非空列的元组列表作为数据框中的列值之一返回
我正在使用一个 pyspark 数据框,它是:
要创建上述数据框:
我想创建另一列“g”,其值是基于现有非空列的元组列表。元组列表的形式为:
((a栏,b栏),(c栏,d栏),(e栏,f栏))
输出 col 的要求: 1)在创建元组列表时只考虑非空列。2) 返回元组列表。
因此,带有“g”列的最终数据框将是:
在“g”列中,第二行元组只有两对而不是三对,因为对于第二行,我们省略了列“a”和“b”值,因为它们是空值。
我不确定如何动态省略列中的空值并形成元组列表
我试图通过 udf 部分实现最后一列:
我尝试将 udf 声明为 ArrayType,但它不起作用。任何帮助将非常感激。我正在使用 pyspark 1.6。谢谢!
apache-spark - 未找到 Spark 临时表
我正在尝试使用自定义输入运行 pySpark 作业,以进行测试。该作业具有三组输入,每组都从不同元存储数据库中的表中读取。
在 spark 中读取数据:hiveContext.table('myDb.myTable')
测试输入是三个文件。为了不更改任何原始代码,我将所有三个输入读入DataFrame
s,并尝试使用myDF.registerTempTable('myDb.myTable')
.
问题是火花失败了org.apache.spark.sql.catalyst.analysis.NoSuchTableException
。
我也试过:
但这也失败了。
知道为什么找不到表吗?
使用 Spark 1.6
dataframe - 如何在pyspark中为Dataframe定义分区?
假设我在 pyspark 中将 parquet 文件作为 Dataframe 读取,我该如何指定它必须有多少个分区?
我像这样阅读镶木地板文件-
如何指定要使用的分区数?