问题标签 [pyspark-dataframes]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1080 问题

0 投票

2 回答

123525 浏览

python - 从 PySpark 中的数据框中删除重复项

我在本地处理 pyspark 1.4 中的数据框，并且在使该dropDuplicates方法正常工作时遇到问题。它不断返回错误：

“AttributeError：‘list’对象没有属性‘dropDuplicates’”

不太清楚为什么，因为我似乎遵循最新文档中的语法。

2015-06-26T03:08:28.947

0 投票

22 回答

139731 浏览

python - 如何在火花中具有不同列数的两个 DataFrame 上执行联合？

我有 2DataFrame秒：

我需要这样的工会：

该unionAll功能不起作用，因为列的数量和名称不同。

我怎样才能做到这一点？

python apache-spark pyspark apache-spark-sql pyspark-dataframes

2016-09-28T21:34:31.667

0 投票

3 回答

3063 浏览

json - 如何保存从 PySpark 中的 URL 获取的 JSON 数据？

我从 API 获取了一些 .json 数据。

如何将其保存为表格或数据框？我正在使用 Spark 2.0。

json apache-spark pyspark apache-spark-sql pyspark-dataframes

2017-01-24T05:57:29.103

0 投票

3 回答

5798 浏览

python - PySpark：使用另一个数据框插入或更新数据框

我有两个数据框，DF1 和 DF2。DF1 是主控，DF2 是增量。来自 DF2 的数据应插入 DF1 或用于更新 DF1 数据。

假设 DF1 具有以下格式：

证件号码	开始日期	数量	天
1	2016-01-01	4650	22
2	2016-01-02	3130	45
1	2016-01-03	4456	22
2	2016-01-15	1234	45

DF2 包含以下内容：

证件号码	开始日期	数量	天
1	2016-01-01	8650	52
2	2016-01-02	7130	65
1	2016-01-06	3456	20
2	2016-01-20	2345	19
3	2016-02-02	1345	19

我需要组合这两个数据帧，如果 DF2 的“id_no”和“开始日期”与 DF1 匹配，则应在 DF1 中替换它，如果不匹配，则应将其插入 DF1。“id_no”不是唯一的。

预期结果：

证件号码	开始日期	数量	天
1	2016-01-01	8650	52
2	2016-01-02	7130	65
1	2016-01-03	4456	22
2	2016-01-15	1234	45
1	2016-01-06	3456	20
2	2016-01-20	2345	19
3	2016-02-02	1345	19

python pyspark apache-spark-sql pyspark-dataframes upsert

2018-08-24T15:17:13.647

0 投票

1 回答

4179 浏览

python - 根据列减去 2 个 pyspark 数据帧

我有 2 个 pyspark 数据框，

我试图根据特定列的值进行减法i，即 of 中存在的值不应存在于of中。jCOL_AiCOL_Bj

预期输出应该是，

这是我的代码，

但是输出出错了，

我在这里做错了吗？提前致谢。

python dataframe pyspark pyspark-dataframes

2018-11-15T12:06:17.817

0 投票

1 回答

4716 浏览

apache-spark - Spark 数据帧不会显示（） - Py4JJavaError：调用 o426.showString 时出错

我有一个无法 .show() 的数据框。每次它给出以下错误？是否有可能存在损坏的列？

错误：

Py4JJavaError：调用 o426.showString 时出错。：org.apache.spark.SparkException：作业因阶段失败而中止：阶段 381.0 中的任务 0 失败 4 次，最近一次失败：阶段 381.0 中丢失任务 0.3（TID 19204，ddlps28.rsc.dwo.com，执行程序 99）：org.apache.spark.api.python.PythonException：回溯（最近一次调用最后一次）：文件“/opt/cloudera/parcels/SPARK2-2.2.0.cloudera1-1.cdh5.12.0.p0.142354/lib/ spark2/python/pyspark/worker.py”，第 177 行，在 main

apache-spark pyspark pyspark-dataframes

2018-12-06T17:00:27.240

0 投票

2 回答

4304 浏览

python - 在 PySpark 中使用 regexp_extract 提取多个单词

我有一个包含一些单词的列表，我需要从文本行中提取匹配的单词，我找到了这个，但它只提取一个单词。

密钥文件内容

这是一个关键字

part_description 文件内容

32015 这是关键字hello world

代码

输出

预期产出

我想要

返回所有匹配的关键字及其计数
如果step #4是最有效的方法

可重现的例子：

python apache-spark pyspark apache-spark-sql pyspark-dataframes

2019-05-28T12:00:25.963

0 投票

1 回答

136 浏览

pyspark - PySpark 添加 ID 列和过滤器损坏

我有一个数据集，目前有 233,465 行，每天增长大约 10,000 行。我需要从完整数据集中随机选择行用于 ML 训练。我为“索引”添加了一个“id”列。

我执行以下代码，期望看到返回 5 行，其中 id 与计数为 5 的“索引”列表匹配。

相反，我得到 3 行。我得到了 45、1000 和 1001 的 ID。

关于这里可能有什么问题的任何想法？这看起来很简单。

谢谢！

pyspark pyspark-dataframes

2019-08-23T18:13:03.940

0 投票

1 回答

182 浏览

pyspark - 如何使用 pySpark 数据框的多列创建 BinaryType 列？

我最近开始使用 pySpark，所以对这方面的很多细节一无所知。

我正在尝试在数据框中创建 BinaryType 列？但是努力去做...

例如，让我们看一个简单的 df

df.show(2)

现在我想要第三列“col3”与 BinaryType 一样

我该怎么做？

pyspark pyspark-sql pyspark-dataframes

2019-08-24T07:56:03.063

0 投票

1 回答

157 浏览

python - 如何使用默认值从 PySpark 数据帧访问 JSON 值？

我有一个火花数据框，其中一列上有一个 Json。我的任务是将此数据框转换为柱状数据框。问题在于 JSON 是动态的，并且它总是会改变结构。我想做的是尝试从中获取值，如果它没有，则返回一个默认值。数据框中有这个选项吗？这就是我从 JSON 中取出值的方式，问题是如果其中一个级别更改名称或结构，它不会失败。

python pyspark pyspark-dataframes

2019-08-25T20:50:33.747

1 2 3 4 5 6 7 8 9 10

问题标签 [pyspark-dataframes]

Reference