问题标签 [pyspark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1171 浏览

apache-spark - 是否可以获得已经运行的 spark 应用程序的 sparkcontext?

我在 Amazon EMR 上运行 spark,使用 yarn 作为集群管理器。我正在尝试编写一个 python 应用程序来启动并在内存中缓存数据。如何允许其他 python 程序访问缓存的数据,即

我启动了一个应用程序 Pcache -> 缓存数据并保持该应用程序运行。另一个用户可以访问运行不同实例的相同缓存数据。

我的理解是应该可以处理已经运行的 sparkContext 并访问该数据?那可能吗?或者我是否需要在该 Spark 应用程序之上设置一个 API 来访问该数据。或者可以使用 Livy 的 Spark Job Server 之类的东西。

0 投票
2 回答
979 浏览

python - 无法通过python spark连接MysqlDB

我想将处理后的 rdd 保存到 mysql 表中,因为我正在使用 SparkDataFrame 但我收到以下错误

我将 mysql-jar 添加到 sparkshell

spark-shell --driver-class-path /path-to-mysql-jar/mysql-connectorjava-5.1.38-bin.jar。

我正在使用火花 spark-1.5.0-bin-hadoop2.4

还设置了配置单元元存储。

那么如何将我的 RDD 结果加载到 Mysql 表中。

输入文件是

我想要表格输出,

0 投票
3 回答
11345 浏览

python - 如何在 Spark (Python) 中对我的 Row 对象的字段进行排序

我在 Spark 中创建 Row 对象。我不希望我的字段按字母顺序排列。但是,如果我执行以下操作,它们会按字母顺序排列。

然后它会创建一个如下所示的对象:

然后当我在这个对象上创建一个数据框时,列顺序将是 bar 第一, foo 第二,当我希望它反过来时。

我知道我可以使用“_1”和“_2”(分别代表“foo”和“bar”),然后分配一个模式(使用适当的“foo”和“bar”名称)。但是有什么方法可以防止 Row 对象对它们进行排序?

0 投票
2 回答
2790 浏览

apache-spark - 如何解开数据集(使用数据透视)?

我在更大的堆叠数据集上尝试了 1.6 的新“枢轴”功能。它有 5,656,458 行,IndicatorCode列有 1344 个不同的代码。

这个想法是使用 pivot 来“unstack”(用 pandas 术语)这个数据集,并为每个 IndicatorCode 设置一个列。

虽然这成功返回,但data3.first()从未返回结果(我在 10 分钟后使用 3 个核心在我的独立设备上中断)。

我的方法使用RDD并且aggregateByKey效果很好,所以我不是在寻找关于如何做到这一点的解决方案,而是使用 DataFrames 进行枢轴是否也可以解决问题。

0 投票
1 回答
439 浏览

json - 在 pyspark 中指定模式并读取 json 文件后获取“无”值

我在 s3 上有一个 json 格式的文件(文件名=a)。我阅读了它并使用 sqlContext.read.json 创建了一个数据框(df)。检查 df.printSchema; 架构不是我想要的。所以我用双精度和字符串类型指定我自己的模式。

然后我在指定上述模式的数据帧(df3)中重新加载 json 数据,但是当我执行 df3.head(1) 时,我看到一些变量的“无”值。

请参阅下面的代码 -

在指定我自己的架构(sch)之后。由于架构代码很长,我没有将其包含在此处。

当我执行 df3.head(1) 时,我使用 DoubleType(数据类型)为我的所有列获取“无”值。我在重新加载 df3 数据帧时做错了吗?

0 投票
2 回答
3054 浏览

apache-spark - 如何缓存 Spark 数据帧并在另一个脚本中引用它

是否可以缓存数据框,然后在另一个脚本中引用(查询)它?...我的目标如下:

  1. 在脚本 1 中,创建一个数据框 (df)
  2. 运行脚本 1 并缓存 df
  3. 在脚本 2 中,查询 df 中的数据
0 投票
2 回答
3705 浏览

apache-spark - 如何在pyspark中将分组数据存储到json中

我是 pyspark 的新手

我有一个看起来像的数据集(只是几列的快照)

数据描述

我想按键分组我的数据。我的钥匙是

我的最终目标是将数据转换为 JSON,格式如下

例如

1384611034793[{},{},{}],....

我创建了一个数据框(我加入两个表基本上是为了获得更多字段)

FROM scoop_dtl a join scoop_hdr b on (a.precima_id =b.precima_id)")

现在,为了获得上述结果,我需要根据键对结果进行分组,我做了以下

这导致 intp 分组数据,阅读后我知道我不能直接使用它,我需要将它转换回数据帧来存储它。

我是新手,需要一些帮助才能将其转换回数据框,或者如果还有其他方法,我将不胜感激。

0 投票
2 回答
475 浏览

pyspark - 如何将每个值与pyspark中的每个其他值进行比较?

我在 spark 中有一个数据框,如下所示

我想要一个看起来像这样的数据框:-

因此,它应该考虑两列的所有可能组合。如何做到这一点?

我尝试了笛卡尔连接,但是对于非常小的数据集来说需要太多时间。还有其他选择吗?

谢谢。

0 投票
2 回答
1462 浏览

apache-spark - 如何使用 PySpark、SparkSQL 和 Cassandra?

我对这个故事中的不同参与者有点困惑:PySpark、SparkSQL、Cassandra 和 pyspark-cassandra 连接器。

据我了解,Spark 发展了很多,SparkSQL 现在是一个关键组件(带有“数据帧”)。显然,没有 SparkSQL 绝对没有理由工作,尤其是在连接到 Cassandra 时。

所以我的问题是:需要什么组件以及如何以最简单的方式将它们连接在一起?

spark-shellScala 中,我可以简单地做

接着

我该怎么做pyspark

这里有几个子问题以及我收集的部分答案(如果我错了,请纠正)。

  • 是否需要 pyspark-casmandra(我不这么认为——我不明白一开始在做什么)

  • 我需要使用pyspark还是可以使用我的常规jupyter notebook并自己导入必要的东西?

0 投票
0 回答
892 浏览

apache-spark - Spark.sql 选择其他表中没有匹配列的行

我有一个名为边缘的数据框,如下所示:

我不想在 src 和 dst 列中重复任何内容。例如 78 是第一行的 src,所以它不能作为最后一行的 dst。换句话说,任何一个顶点在表格中只能出现一个。

该表也应按 mean_affinity 排序。我开始为此编写查询,但它似乎不起作用:

这是堆栈跟踪的一部分:

谢谢!