“pyspark-sql”的相关标签问题

0 投票

2 回答

1171 浏览

apache-spark - 是否可以获得已经运行的 spark 应用程序的 sparkcontext？

我在 Amazon EMR 上运行 spark，使用 yarn 作为集群管理器。我正在尝试编写一个 python 应用程序来启动并在内存中缓存数据。如何允许其他 python 程序访问缓存的数据，即

我启动了一个应用程序 Pcache -> 缓存数据并保持该应用程序运行。另一个用户可以访问运行不同实例的相同缓存数据。

我的理解是应该可以处理已经运行的 sparkContext 并访问该数据？那可能吗？或者我是否需要在该 Spark 应用程序之上设置一个 API 来访问该数据。或者可以使用 Livy 的 Spark Job Server 之类的东西。

2016-02-02T23:40:24.980

0 投票

2 回答

979 浏览

python - 无法通过python spark连接MysqlDB

我想将处理后的 rdd 保存到 mysql 表中，因为我正在使用 SparkDataFrame 但我收到以下错误

我将 mysql-jar 添加到 sparkshell

spark-shell --driver-class-path /path-to-mysql-jar/mysql-connectorjava-5.1.38-bin.jar。

我正在使用火花 spark-1.5.0-bin-hadoop2.4

还设置了配置单元元存储。

那么如何将我的 RDD 结果加载到 Mysql 表中。

输入文件是

我想要表格输出，

python mysql apache-spark pyspark pyspark-sql

2016-02-05T12:37:11.820

0 投票

3 回答

11345 浏览

python - 如何在 Spark (Python) 中对我的 Row 对象的字段进行排序

我在 Spark 中创建 Row 对象。我不希望我的字段按字母顺序排列。但是，如果我执行以下操作，它们会按字母顺序排列。

然后它会创建一个如下所示的对象：

然后当我在这个对象上创建一个数据框时，列顺序将是 bar 第一， foo 第二，当我希望它反过来时。

我知道我可以使用“_1”和“_2”（分别代表“foo”和“bar”），然后分配一个模式（使用适当的“foo”和“bar”名称）。但是有什么方法可以防止 Row 对象对它们进行排序？

python apache-spark pyspark apache-spark-sql pyspark-sql

2016-02-11T15:33:39.230

0 投票

2 回答

2790 浏览

apache-spark - 如何解开数据集（使用数据透视）？

我在更大的堆叠数据集上尝试了 1.6 的新“枢轴”功能。它有 5,656,458 行，IndicatorCode列有 1344 个不同的代码。

这个想法是使用 pivot 来“unstack”（用 pandas 术语）这个数据集，并为每个 IndicatorCode 设置一个列。

虽然这成功返回，但data3.first()从未返回结果（我在 10 分钟后使用 3 个核心在我的独立设备上中断）。

我的方法使用RDD并且aggregateByKey效果很好，所以我不是在寻找关于如何做到这一点的解决方案，而是使用 DataFrames 进行枢轴是否也可以解决问题。

apache-spark apache-spark-sql pyspark-sql

2016-02-16T08:50:28.910

0 投票

1 回答

439 浏览

json - 在 pyspark 中指定模式并读取 json 文件后获取“无”值

我在 s3 上有一个 json 格式的文件（文件名=a）。我阅读了它并使用 sqlContext.read.json 创建了一个数据框（df）。检查 df.printSchema; 架构不是我想要的。所以我用双精度和字符串类型指定我自己的模式。

然后我在指定上述模式的数据帧（df3）中重新加载 json 数据，但是当我执行 df3.head(1) 时，我看到一些变量的“无”值。

请参阅下面的代码 -

在指定我自己的架构（sch）之后。由于架构代码很长，我没有将其包含在此处。

当我执行 df3.head(1) 时，我使用 DoubleType（数据类型）为我的所有列获取“无”值。我在重新加载 df3 数据帧时做错了吗？

json pyspark-sql

2016-02-18T08:16:42.813

0 投票

2 回答

3054 浏览

apache-spark - 如何缓存 Spark 数据帧并在另一个脚本中引用它

是否可以缓存数据框，然后在另一个脚本中引用（查询）它？...我的目标如下：

在脚本 1 中，创建一个数据框 (df)
运行脚本 1 并缓存 df
在脚本 2 中，查询 df 中的数据

apache-spark pyspark apache-spark-sql pyspark-sql

2016-02-23T16:54:32.290

0 投票

2 回答

3705 浏览

apache-spark - 如何在pyspark中将分组数据存储到json中

我是 pyspark 的新手

我有一个看起来像的数据集（只是几列的快照）

数据描述

我想按键分组我的数据。我的钥匙是

我的最终目标是将数据转换为 JSON，格式如下

例如

1384611034793[{},{},{}],....

我创建了一个数据框（我加入两个表基本上是为了获得更多字段）

FROM scoop_dtl a join scoop_hdr b on (a.precima_id =b.precima_id)")

现在，为了获得上述结果，我需要根据键对结果进行分组，我做了以下

这导致 intp 分组数据，阅读后我知道我不能直接使用它，我需要将它转换回数据帧来存储它。

我是新手，需要一些帮助才能将其转换回数据框，或者如果还有其他方法，我将不胜感激。

apache-spark dataframe pyspark apache-spark-sql pyspark-sql

2016-02-27T17:58:13.787

0 投票

2 回答

475 浏览

pyspark - 如何将每个值与pyspark中的每个其他值进行比较？

我在 spark 中有一个数据框，如下所示

我想要一个看起来像这样的数据框：-

因此，它应该考虑两列的所有可能组合。如何做到这一点？

我尝试了笛卡尔连接，但是对于非常小的数据集来说需要太多时间。还有其他选择吗？

谢谢。

pyspark pyspark-sql

2016-02-28T05:53:07.240

0 投票

2 回答

1462 浏览

apache-spark - 如何使用 PySpark、SparkSQL 和 Cassandra？

我对这个故事中的不同参与者有点困惑：PySpark、SparkSQL、Cassandra 和 pyspark-cassandra 连接器。

据我了解，Spark 发展了很多，SparkSQL 现在是一个关键组件（带有“数据帧”）。显然，没有 SparkSQL 绝对没有理由工作，尤其是在连接到 Cassandra 时。

所以我的问题是：需要什么组件以及如何以最简单的方式将它们连接在一起？

在spark-shellScala 中，我可以简单地做

接着

我该怎么做pyspark？

这里有几个子问题以及我收集的部分答案（如果我错了，请纠正）。

是否需要 pyspark-casmandra（我不这么认为——我不明白一开始在做什么）
我需要使用pyspark还是可以使用我的常规jupyter notebook并自己导入必要的东西？

apache-spark cassandra pyspark pyspark-sql

2016-02-28T16:06:26.893

0 投票

0 回答

892 浏览

apache-spark - Spark.sql 选择其他表中没有匹配列的行

我有一个名为边缘的数据框，如下所示：

我不想在 src 和 dst 列中重复任何内容。例如 78 是第一行的 src，所以它不能作为最后一行的 dst。换句话说，任何一个顶点在表格中只能出现一个。

该表也应按 mean_affinity 排序。我开始为此编写查询，但它似乎不起作用：

这是堆栈跟踪的一部分：

谢谢！

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

2016-03-03T01:06:39.710

问题标签 [pyspark-sql]

Reference