问题标签 [pyspark-dataframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pyspark-sql - 使用日期列手动创建数据框
我正在阅读 pyspark 文档中的示例代码
https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.SQLContext
在示例代码中,它创建了一个这样的数据框
我想知道为什么在 '2015-04-08' 之后必须有一个逗号,而只有一列。我觉得这可能与元组类型有关,但想了解更多。
pyspark - 从 pyspark 中的数据帧中随机抽样
在我的数据集中,我有 730 亿行。我想对其应用分类算法。我需要来自原始数据的样本,以便我可以测试我的模型。
我想做一个训练测试拆分。
数据框看起来像 -
如何使用 pyspark 进行随机抽样,以便我的依赖(流失)变量比率不会改变。有什么建议吗?
pyspark - 从 pyspark 数据框中删除具有相同值但在不同列中的重复行
我想从两列中删除重复的行。包含两个值的行具有相同的记录,但顺序相反。
我想要以下输出;
apache-spark - AttributeError:“NoneType”对象没有属性“在 Pyspark 中写入”
火花:2.4.4 Pyspark
我已经注册了临时表并尝试将输出保存到 csv 文件。但得到错误为 “AttributeError:'NoneType'对象没有属性'write'”
请帮忙
apache-spark - Pyspark 中的 PicklingError
我在 pyspark 中编写了下面的函数来获取 deptid 并返回我想在 spark sql 中使用的数据帧。
def get_max_salary(deptid):
sql_salary="select max(salary) from empoyee where depid ={}"
df_salary = spark.sql(sql_salary.format(deptid)) return df_salary spark.udf.register('get_max_salary',get_max_salary)
但是我收到以下错误消息。我在网上搜索,但在任何地方都找不到合适的解决方案。有人可以帮我吗
错误消息 - PicklingError:无法序列化对象:异常:您似乎正在尝试从广播变量、操作或转换中引用 SparkContext。SparkContext 只能在驱动程序上使用,不能在它在工作人员上运行的代码中使用。有关详细信息,请参阅 SPARK-5063。
csv - 如何在 pyspark 中使用模式读取 csv
我知道如何使用 pyspark 读取 csv,但我在以正确格式加载它时遇到了很多问题。我的 csv 有 3 列,其中第一列和第二列是字符串,但第三列是字典列表。我无法加载最后一列。
我试过了
但它引发了一个错误。对于 Inferschema,它都不起作用。
pyspark - 如何从pyspark中的一行获取最大日期
我想要的只是一个新列,其中包含 colA 和 ColB 的最大日期。我正在运行相同的代码,当我执行 maxDF.show 时,我遇到了以下错误:
matplotlib - I am trying to PLot Bar chart by integrating matplotlib with Pyspark. I am getting error
I am trying to plot a bar chart using matplotlib in pyspark, i am getting error.
apache-spark - 在不使用 pandas 的情况下转换行和列
我有一个只有两列的数据框。我正在尝试将一列的值转换为标题,将另一列的值转换为它的值。尝试使用 pivot 和 all 但它不起作用。
试图将其转换为
关于我们如何做到这一点的任何想法?我不想使用 .toPandas() 我们可以通过转换成 pandas 数据框来实现它。但是我们有数十亿行,因此我们会遇到内存问题。
python - 比较 Pyspark 数据帧的值(列表)
我想在 list_id 列上的两个 df1 df2 数据帧之间进行比较:
期望的结果是:
我的目标是连接它们的交集不为空的列表,并使其他列表与 pyspark 保持原样。
注意:我的数据框非常大,使用 Spark Sql 的连接是不可能的。