问题标签 [pyspark-dataframes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1233 浏览

pyspark-sql - 使用日期列手动创建数据框

我正在阅读 pyspark 文档中的示例代码

https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.SQLContext

在示例代码中,它创建了一个这样的数据框

我想知道为什么在 '2015-04-08' 之后必须有一个逗号,而只有一列。我觉得这可能与元组类型有关,但想了解更多。

0 投票
2 回答
1180 浏览

pyspark - 从 pyspark 中的数据帧中随机抽样

在我的数据集中,我有 730 亿行。我想对其应用分类算法。我需要来自原始数据的样本,以便我可以测试我的模型。

我想做一个训练测试拆分。

数据框看起来像 -

如何使用 pyspark 进行随机抽样,以便我的依赖(流失)变量比率不会改变。有什么建议吗?

0 投票
1 回答
53 浏览

pyspark - 从 pyspark 数据框中删除具有相同值但在不同列中的重复行

我想从两列中删除重复的行。包含两个值的行具有相同的记录,但顺序相反。

我想要以下输出;

0 投票
1 回答
3942 浏览

apache-spark - AttributeError:“NoneType”对象没有属性“在 Pyspark 中写入”

火花:2.4.4 Pyspark

我已经注册了临时表并尝试将输出保存到 csv 文件。但得到错误为 “AttributeError:'NoneType'对象没有属性'write'”

请帮忙

0 投票
0 回答
616 浏览

apache-spark - Pyspark 中的 PicklingError

我在 pyspark 中编写了下面的函数来获取 deptid 并返回我想在 spark sql 中使用的数据帧。

def get_max_salary(deptid):

sql_salary="select max(salary) from empoyee where depid ={}"

df_salary = spark.sql(sql_salary.format(deptid)) return df_salary spark.udf.register('get_max_salary',get_max_salary)

但是我收到以下错误消息。我在网上搜索,但在任何地方都找不到合适的解决方案。有人可以帮我吗

错误消息 - PicklingError:无法序列化对象:异常:您似乎正在尝试从广播变量、操作或转换中引用 SparkContext。SparkContext 只能在驱动程序上使用,不能在它在工作人员上运行的代码中使用。有关详细信息,请参阅 SPARK-5063。

0 投票
1 回答
192 浏览

csv - 如何在 pyspark 中使用模式读取 csv

我知道如何使用 pyspark 读取 csv,但我在以正确格式加载它时遇到了很多问题。我的 csv 有 3 列,其中第一列和第二列是字符串,但第三列是字典列表。我无法加载最后一列。

我试过了

但它引发了一个错误。对于 Inferschema,它都不起作用。

0 投票
2 回答
74 浏览

pyspark - 如何从pyspark中的一行获取最大日期

我想要的只是一个新列,其中包含 colA 和 ColB 的最大日期。我正在运行相同的代码,当我执行 maxDF.show 时,我遇到了以下错误:

0 投票
0 回答
60 浏览

matplotlib - I am trying to PLot Bar chart by integrating matplotlib with Pyspark. I am getting error

I am trying to plot a bar chart using matplotlib in pyspark, i am getting error.

0 投票
1 回答
40 浏览

apache-spark - 在不使用 pandas 的情况下转换行和列

我有一个只有两列的数据框。我正在尝试将一列的值转换为标题,将另一列的值转换为它的值。尝试使用 pivot 和 all 但它不起作用。

试图将其转换为

关于我们如何做到这一点的任何想法?我不想使用 .toPandas() 我们可以通过转换成 pandas 数据框来实现它。但是我们有数十亿行,因此我们会遇到内存问题。

0 投票
1 回答
94 浏览

python - 比较 Pyspark 数据帧的值(列表)

我想在 list_id 列上的两个 df1 df2 数据帧之间进行比较:

期望的结果是:

我的目标是连接它们的交集不为空的列表,并使其他列表与 pyspark 保持原样。

注意:我的数据框非常大,使用 Spark Sql 的连接是不可能的。