问题标签 [pyspark-dataframes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
81 浏览

apache-spark - 重复记录移动到 pyspark 中的其他临时表

我正在使用 Pyspark

我的输入数据如下所示。

我已经创建了 DataFrame 并查询了如下所示的重复项。

这给出了正确的结果,但我们可以在单独的临时表中获得重复值。

在 temp2 中输出数据

0 投票
1 回答
239 浏览

pandas - 迭代两个数据框,比较和更改 pandas 或 pyspark 中的值

我正在尝试在熊猫中进行练习。

我有两个数据框。如果比较成功,我需要比较两个数据帧之间的几列并更改第一个数据帧中一列的值。

数据框 1:

最初,我所有的文章都将“购买”标志设置为零。我的数据框 2 看起来像:

我想检查文章、国家/地区/原产地和颜色列是否匹配(因此检查我是否可以在数据框 2 中找到来自数据框 1 的每篇文章),如果是,我想将标志“购买”设置为 1。

我试图用 pyspark 遍历两个数据框,但 pyspark daatframes 不可迭代。我曾想过在熊猫中这样做,但显然在迭代期间更改值是一种不好的做法。

pyspark 或 pandas 中的哪些代码可以完成我需要做的事情?

谢谢!

0 投票
2 回答
4146 浏览

pyspark - 将 pyspark 数据帧转换为动态数据帧

我有一个 pyspark 数据框。我能够将动态数据帧转换为火花数据帧persons.toDF()。我想再次将 spark 数据帧转换回 pyspark 中的动态数据帧。我想将我的列转换为时间戳,然后再次将其转换为动态数据帧以解析选择。请帮我

0 投票
2 回答
165 浏览

apache-spark - 在 pyspark 2.4 中使用正则表达式的 ParseException 错误

我试图只获取 colADD 包含非字母数字字符的那些行。

代码 :

错误:

请帮忙,我错过了什么。

0 投票
2 回答
154 浏览

hive - 在多列上独立分组

我有一个数据框,其中有 2 列。

我想要如下输出:

我想要单独计算每一列。

0 投票
0 回答
225 浏览

apache-spark - Pyspark Shuffle 写入大小

我在第 2 阶段和第 3 阶段从两个来源读取数据。如您所见,在第 2 阶段,输入大小为 2.8GB,第 3 阶段为 38.3GB。但第 2 阶段的随机写入部分几乎是输入大小的 10 倍, 23.9GB。为什么,对于第 3 阶段,它与输入大小相比要小得多?这对我来说没有任何意义。我想知道为什么它对于 stage2 来说如此之大。它是否正在重新分区,因为它只有 16 个正在读取的分区? 在此处输入图像描述

0 投票
0 回答
33 浏览

apache-spark - Spark 2.4.3 - 当数据库表模式有数字类型时怎么办?

我需要使用 spark 从数据库表 (Teradata) 加载数据,但表的模式的类型为 NUMBER,没有精度和比例。正如我们在这里看到的那样https://github.com/apache/spark/pull/8780

因此,当我加载包含“NUMBER”列且这些列中具有浮点值的表时,在 spark 数据框中,这些值的精度显示为 NUMBER(38,0),并且这些值的精度会丢失。

例子:

兆数据:

数据框火花:

有人可以帮我吗?

0 投票
1 回答
476 浏览

python-3.x - 如何将输入字符串转换为pyspark中列的每一行的字典

我有一个数据框的列值,我在其中接收到一个字符串输入,如下所示,其中 startIndex 是每个字符开头的索引,结束索引是字符串中该字符出现的结尾,标志是字符本身。

现在我想将字符串转换为每一行的字典,如下所示:

我有伪代码来构建字典,但不确定如何在不使用循环的情况下一次将其应用于所有行。此外,这种方法的问题是只有最后一个框架字典在所有行中被覆盖

0 投票
2 回答
153 浏览

pyspark - 从文件中读取规则并将这些规则应用于 pyspark 数据框行

我有一个规则书 csv,数据如下所示:

所以如果lastname等于 ABC 并且firstname像 XYZ 那么val将是 2 ,就像那样。此文件可以更改或修改,因此条件将是动态的。将来甚至可以添加行。

现在,我的 pyspark 数据框是:

我需要将该 csv 文件中的规则应用于此数据框并添加 val 列。所以我想要的输出数据框将是:

请记住,规则手册是动态的,可以随时添加、删除或修改规则。甚至可以修改规则手册中的运算符。提前致谢

0 投票
1 回答
282 浏览

pyspark - 比较两个不同长度的列

我正在使用两个 pyspark 数据框,每个都有一列。一个有 3 行(ColumnA),另一个有 100 行(ColumnB)。我想将ColumnA 的所有行与 ColumnB 的每一行进行比较。(我需要知道 ColumnA 中的任何日期是否大于 ColumnB 中的日期,如果是,请在 ColumnX 中添加 1)

任何建议,将不胜感激。谢谢!

在此处输入图像描述