问题标签 [pyspark-dataframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 重复记录移动到 pyspark 中的其他临时表
我正在使用 Pyspark
我的输入数据如下所示。
我已经创建了 DataFrame 并查询了如下所示的重复项。
这给出了正确的结果,但我们可以在单独的临时表中获得重复值。
在 temp2 中输出数据
pandas - 迭代两个数据框,比较和更改 pandas 或 pyspark 中的值
我正在尝试在熊猫中进行练习。
我有两个数据框。如果比较成功,我需要比较两个数据帧之间的几列并更改第一个数据帧中一列的值。
数据框 1:
最初,我所有的文章都将“购买”标志设置为零。我的数据框 2 看起来像:
我想检查文章、国家/地区/原产地和颜色列是否匹配(因此检查我是否可以在数据框 2 中找到来自数据框 1 的每篇文章),如果是,我想将标志“购买”设置为 1。
我试图用 pyspark 遍历两个数据框,但 pyspark daatframes 不可迭代。我曾想过在熊猫中这样做,但显然在迭代期间更改值是一种不好的做法。
pyspark 或 pandas 中的哪些代码可以完成我需要做的事情?
谢谢!
pyspark - 将 pyspark 数据帧转换为动态数据帧
我有一个 pyspark 数据框。我能够将动态数据帧转换为火花数据帧persons.toDF()
。我想再次将 spark 数据帧转换回 pyspark 中的动态数据帧。我想将我的列转换为时间戳,然后再次将其转换为动态数据帧以解析选择。请帮我
apache-spark - 在 pyspark 2.4 中使用正则表达式的 ParseException 错误
我试图只获取 colADD 包含非字母数字字符的那些行。
代码 :
错误:
请帮忙,我错过了什么。
hive - 在多列上独立分组
我有一个数据框,其中有 2 列。
我想要如下输出:
我想要单独计算每一列。
apache-spark - Spark 2.4.3 - 当数据库表模式有数字类型时怎么办?
我需要使用 spark 从数据库表 (Teradata) 加载数据,但表的模式的类型为 NUMBER,没有精度和比例。正如我们在这里看到的那样https://github.com/apache/spark/pull/8780。
因此,当我加载包含“NUMBER”列且这些列中具有浮点值的表时,在 spark 数据框中,这些值的精度显示为 NUMBER(38,0),并且这些值的精度会丢失。
例子:
兆数据:
数据框火花:
有人可以帮我吗?
python-3.x - 如何将输入字符串转换为pyspark中列的每一行的字典
我有一个数据框的列值,我在其中接收到一个字符串输入,如下所示,其中 startIndex 是每个字符开头的索引,结束索引是字符串中该字符出现的结尾,标志是字符本身。
现在我想将字符串转换为每一行的字典,如下所示:
我有伪代码来构建字典,但不确定如何在不使用循环的情况下一次将其应用于所有行。此外,这种方法的问题是只有最后一个框架字典在所有行中被覆盖
pyspark - 从文件中读取规则并将这些规则应用于 pyspark 数据框行
我有一个规则书 csv,数据如下所示:
所以如果lastname
等于 ABC 并且firstname
像 XYZ 那么val
将是 2 ,就像那样。此文件可以更改或修改,因此条件将是动态的。将来甚至可以添加行。
现在,我的 pyspark 数据框是:
我需要将该 csv 文件中的规则应用于此数据框并添加 val 列。所以我想要的输出数据框将是:
请记住,规则手册是动态的,可以随时添加、删除或修改规则。甚至可以修改规则手册中的运算符。提前致谢
pyspark - 比较两个不同长度的列
我正在使用两个 pyspark 数据框,每个都有一列。一个有 3 行(ColumnA),另一个有 100 行(ColumnB)。我想将ColumnA 的所有行与 ColumnB 的每一行进行比较。(我需要知道 ColumnA 中的任何日期是否大于 ColumnB 中的日期,如果是,请在 ColumnX 中添加 1)
任何建议,将不胜感激。谢谢!