问题标签 [pyspark-dataframes]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1080 问题

0 投票

1 回答

81 浏览

apache-spark - 重复记录移动到 pyspark 中的其他临时表

我正在使用 Pyspark

我的输入数据如下所示。

我已经创建了 DataFrame 并查询了如下所示的重复项。

这给出了正确的结果，但我们可以在单独的临时表中获得重复值。

在 temp2 中输出数据

2019-09-23T16:34:11.813

0 投票

1 回答

239 浏览

pandas - 迭代两个数据框，比较和更改 pandas 或 pyspark 中的值

我正在尝试在熊猫中进行练习。

我有两个数据框。如果比较成功，我需要比较两个数据帧之间的几列并更改第一个数据帧中一列的值。

数据框 1：

最初，我所有的文章都将“购买”标志设置为零。我的数据框 2 看起来像：

我想检查文章、国家/地区/原产地和颜色列是否匹配（因此检查我是否可以在数据框 2 中找到来自数据框 1 的每篇文章），如果是，我想将标志“购买”设置为 1。

我试图用 pyspark 遍历两个数据框，但 pyspark daatframes 不可迭代。我曾想过在熊猫中这样做，但显然在迭代期间更改值是一种不好的做法。

pyspark 或 pandas 中的哪些代码可以完成我需要做的事情？

谢谢！

pandas pyspark pyspark-dataframes

2019-09-23T18:52:46.880

0 投票

2 回答

4146 浏览

pyspark - 将 pyspark 数据帧转换为动态数据帧

我有一个 pyspark 数据框。我能够将动态数据帧转换为火花数据帧persons.toDF()。我想再次将 spark 数据帧转换回 pyspark 中的动态数据帧。我想将我的列转换为时间戳，然后再次将其转换为动态数据帧以解析选择。请帮我

pyspark aws-glue pyspark-dataframes

2019-09-24T05:48:59.077

0 投票

2 回答

165 浏览

apache-spark - 在 pyspark 2.4 中使用正则表达式的 ParseException 错误

我试图只获取 colADD 包含非字母数字字符的那些行。

代码：

错误：

请帮忙，我错过了什么。

apache-spark pyspark pyspark-sql pyspark-dataframes

2019-09-24T07:39:40.610

0 投票

2 回答

154 浏览

hive - 在多列上独立分组

我有一个数据框，其中有 2 列。

我想要如下输出：

我想要单独计算每一列。

hive pyspark pyspark-sql pyspark-dataframes

2019-09-24T09:59:14.757

0 投票

0 回答

225 浏览

apache-spark - Pyspark Shuffle 写入大小

我在第 2 阶段和第 3 阶段从两个来源读取数据。如您所见，在第 2 阶段，输入大小为 2.8GB，第 3 阶段为 38.3GB。但第 2 阶段的随机写入部分几乎是输入大小的 10 倍, 23.9GB。为什么，对于第 3 阶段，它与输入大小相比要小得多？这对我来说没有任何意义。我想知道为什么它对于 stage2 来说如此之大。它是否正在重新分区，因为它只有 16 个正在读取的分区？

apache-spark hive pyspark bigdata pyspark-dataframes

2019-09-24T16:07:52.230

0 投票

0 回答

33 浏览

apache-spark - Spark 2.4.3 - 当数据库表模式有数字类型时怎么办？

我需要使用 spark 从数据库表 (Teradata) 加载数据，但表的模式的类型为 NUMBER，没有精度和比例。正如我们在这里看到的那样https://github.com/apache/spark/pull/8780。

因此，当我加载包含“NUMBER”列且这些列中具有浮点值的表时，在 spark 数据框中，这些值的精度显示为 NUMBER(38,0)，并且这些值的精度会丢失。

例子：

兆数据：

数据框火花：

有人可以帮我吗？

apache-spark pyspark pyspark-dataframes

2019-09-24T16:54:23.177

0 投票

1 回答

476 浏览

python-3.x - 如何将输入字符串转换为pyspark中列的每一行的字典

我有一个数据框的列值，我在其中接收到一个字符串输入，如下所示，其中 startIndex 是每个字符开头的索引，结束索引是字符串中该字符出现的结尾，标志是字符本身。

现在我想将字符串转换为每一行的字典，如下所示：

我有伪代码来构建字典，但不确定如何在不使用循环的情况下一次将其应用于所有行。此外，这种方法的问题是只有最后一个框架字典在所有行中被覆盖

python-3.x pyspark pyspark-sql pyspark-dataframes

2019-09-24T17:07:57.813

0 投票

2 回答

153 浏览

pyspark - 从文件中读取规则并将这些规则应用于 pyspark 数据框行

我有一个规则书 csv，数据如下所示：

所以如果lastname等于 ABC 并且firstname像 XYZ 那么val将是 2 ，就像那样。此文件可以更改或修改，因此条件将是动态的。将来甚至可以添加行。

现在，我的 pyspark 数据框是：

我需要将该 csv 文件中的规则应用于此数据框并添加 val 列。所以我想要的输出数据框将是：

请记住，规则手册是动态的，可以随时添加、删除或修改规则。甚至可以修改规则手册中的运算符。提前致谢

pyspark apache-spark-sql pyspark-sql aws-glue pyspark-dataframes

2019-09-25T14:00:05.027

0 投票

1 回答

282 浏览

pyspark - 比较两个不同长度的列

我正在使用两个 pyspark 数据框，每个都有一列。一个有 3 行（ColumnA），另一个有 100 行（ColumnB）。我想将ColumnA 的所有行与 ColumnB 的每一行进行比较。（我需要知道 ColumnA 中的任何日期是否大于 ColumnB 中的日期，如果是，请在 ColumnX 中添加 1）

任何建议，将不胜感激。谢谢！

在此处输入图像描述

pyspark pyspark-dataframes

2019-09-25T14:49:55.420

1 2 3 4 5 6 7 8 9 10

问题标签 [pyspark-dataframes]

Reference