问题标签 [pyspark-dataframes]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1080 问题

0 投票

1 回答

1233 浏览

pyspark-sql - 使用日期列手动创建数据框

我正在阅读 pyspark 文档中的示例代码

https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.SQLContext

在示例代码中，它创建了一个这样的数据框

我想知道为什么在 '2015-04-08' 之后必须有一个逗号，而只有一列。我觉得这可能与元组类型有关，但想了解更多。

pyspark-sql pyspark-dataframes

2019-09-25T17:44:00.600

0 投票

2 回答

1180 浏览

pyspark - 从 pyspark 中的数据帧中随机抽样

在我的数据集中，我有 730 亿行。我想对其应用分类算法。我需要来自原始数据的样本，以便我可以测试我的模型。

我想做一个训练测试拆分。

数据框看起来像 -

如何使用 pyspark 进行随机抽样，以便我的依赖（流失）变量比率不会改变。有什么建议吗？

pyspark pyspark-sql pyspark-dataframes

2019-09-26T05:33:08.353

0 投票

1 回答

53 浏览

pyspark - 从 pyspark 数据框中删除具有相同值但在不同列中的重复行

我想从两列中删除重复的行。包含两个值的行具有相同的记录，但顺序相反。

我想要以下输出；

pyspark pyspark-dataframes

2019-09-26T07:09:23.333

0 投票

1 回答

3942 浏览

apache-spark - AttributeError：“NoneType”对象没有属性“在 Pyspark 中写入”

火花：2.4.4 Pyspark

我已经注册了临时表并尝试将输出保存到 csv 文件。但得到错误为 “AttributeError：'NoneType'对象没有属性'write'”

请帮忙

apache-spark pyspark pyspark-sql pyspark-dataframes

2019-09-26T09:45:17.550

0 投票

0 回答

616 浏览

apache-spark - Pyspark 中的 PicklingError

我在 pyspark 中编写了下面的函数来获取 deptid 并返回我想在 spark sql 中使用的数据帧。

def get_max_salary(deptid):

sql_salary="select max(salary) from empoyee where depid ={}"

df_salary = spark.sql(sql_salary.format(deptid)) return df_salary spark.udf.register('get_max_salary',get_max_salary)

但是我收到以下错误消息。我在网上搜索，但在任何地方都找不到合适的解决方案。有人可以帮我吗

错误消息 - PicklingError：无法序列化对象：异常：您似乎正在尝试从广播变量、操作或转换中引用 SparkContext。SparkContext 只能在驱动程序上使用，不能在它在工作人员上运行的代码中使用。有关详细信息，请参阅 SPARK-5063。

apache-spark pyspark pyspark-sql pyspark-dataframes

2019-09-26T12:59:34.273

0 投票

1 回答

192 浏览

csv - 如何在 pyspark 中使用模式读取 csv

我知道如何使用 pyspark 读取 csv，但我在以正确格式加载它时遇到了很多问题。我的 csv 有 3 列，其中第一列和第二列是字符串，但第三列是字典列表。我无法加载最后一列。

我试过了

但它引发了一个错误。对于 Inferschema，它都不起作用。

csv pyspark pyspark-dataframes

2019-09-26T15:17:53.403

0 投票

2 回答

74 浏览

pyspark - 如何从pyspark中的一行获取最大日期

我想要的只是一个新列，其中包含 colA 和 ColB 的最大日期。我正在运行相同的代码，当我执行 maxDF.show 时，我遇到了以下错误：

pyspark pyspark-dataframes

2019-09-26T17:07:32.303

0 投票

0 回答

60 浏览

matplotlib - I am trying to PLot Bar chart by integrating matplotlib with Pyspark. I am getting error

I am trying to plot a bar chart using matplotlib in pyspark, i am getting error.

matplotlib pyspark-dataframes

2019-09-29T05:37:56.950

0 投票

1 回答

40 浏览

apache-spark - 在不使用 pandas 的情况下转换行和列

我有一个只有两列的数据框。我正在尝试将一列的值转换为标题，将另一列的值转换为它的值。尝试使用 pivot 和 all 但它不起作用。

试图将其转换为

关于我们如何做到这一点的任何想法？我不想使用 .toPandas() 我们可以通过转换成 pandas 数据框来实现它。但是我们有数十亿行，因此我们会遇到内存问题。

apache-spark pyspark apache-spark-sql pyspark-dataframes

2019-09-30T18:36:37.997

0 投票

1 回答

94 浏览

python - 比较 Pyspark 数据帧的值（列表）

我想在 list_id 列上的两个 df1 df2 数据帧之间进行比较：

期望的结果是：

我的目标是连接它们的交集不为空的列表，并使其他列表与 pyspark 保持原样。

注意：我的数据框非常大，使用 Spark Sql 的连接是不可能的。

python pyspark pyspark-dataframes

2019-10-01T09:56:24.803

1 2 3 4 5 6 7 8 9 10