问题标签 [pyspark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 是否可以获得已经运行的 spark 应用程序的 sparkcontext?
我在 Amazon EMR 上运行 spark,使用 yarn 作为集群管理器。我正在尝试编写一个 python 应用程序来启动并在内存中缓存数据。如何允许其他 python 程序访问缓存的数据,即
我启动了一个应用程序 Pcache -> 缓存数据并保持该应用程序运行。另一个用户可以访问运行不同实例的相同缓存数据。
我的理解是应该可以处理已经运行的 sparkContext 并访问该数据?那可能吗?或者我是否需要在该 Spark 应用程序之上设置一个 API 来访问该数据。或者可以使用 Livy 的 Spark Job Server 之类的东西。
python - 无法通过python spark连接MysqlDB
我想将处理后的 rdd 保存到 mysql 表中,因为我正在使用 SparkDataFrame 但我收到以下错误
我将 mysql-jar 添加到 sparkshell
spark-shell --driver-class-path /path-to-mysql-jar/mysql-connectorjava-5.1.38-bin.jar。
我正在使用火花 spark-1.5.0-bin-hadoop2.4
还设置了配置单元元存储。
那么如何将我的 RDD 结果加载到 Mysql 表中。
输入文件是
我想要表格输出,
python - 如何在 Spark (Python) 中对我的 Row 对象的字段进行排序
我在 Spark 中创建 Row 对象。我不希望我的字段按字母顺序排列。但是,如果我执行以下操作,它们会按字母顺序排列。
然后它会创建一个如下所示的对象:
然后当我在这个对象上创建一个数据框时,列顺序将是 bar 第一, foo 第二,当我希望它反过来时。
我知道我可以使用“_1”和“_2”(分别代表“foo”和“bar”),然后分配一个模式(使用适当的“foo”和“bar”名称)。但是有什么方法可以防止 Row 对象对它们进行排序?
apache-spark - 如何解开数据集(使用数据透视)?
我在更大的堆叠数据集上尝试了 1.6 的新“枢轴”功能。它有 5,656,458 行,IndicatorCode
列有 1344 个不同的代码。
这个想法是使用 pivot 来“unstack”(用 pandas 术语)这个数据集,并为每个 IndicatorCode 设置一个列。
虽然这成功返回,但data3.first()
从未返回结果(我在 10 分钟后使用 3 个核心在我的独立设备上中断)。
我的方法使用RDD
并且aggregateByKey
效果很好,所以我不是在寻找关于如何做到这一点的解决方案,而是使用 DataFrames 进行枢轴是否也可以解决问题。
json - 在 pyspark 中指定模式并读取 json 文件后获取“无”值
我在 s3 上有一个 json 格式的文件(文件名=a)。我阅读了它并使用 sqlContext.read.json 创建了一个数据框(df)。检查 df.printSchema; 架构不是我想要的。所以我用双精度和字符串类型指定我自己的模式。
然后我在指定上述模式的数据帧(df3)中重新加载 json 数据,但是当我执行 df3.head(1) 时,我看到一些变量的“无”值。
请参阅下面的代码 -
在指定我自己的架构(sch)之后。由于架构代码很长,我没有将其包含在此处。
当我执行 df3.head(1) 时,我使用 DoubleType(数据类型)为我的所有列获取“无”值。我在重新加载 df3 数据帧时做错了吗?
apache-spark - 如何缓存 Spark 数据帧并在另一个脚本中引用它
是否可以缓存数据框,然后在另一个脚本中引用(查询)它?...我的目标如下:
- 在脚本 1 中,创建一个数据框 (df)
- 运行脚本 1 并缓存 df
- 在脚本 2 中,查询 df 中的数据
apache-spark - 如何在pyspark中将分组数据存储到json中
我是 pyspark 的新手
我有一个看起来像的数据集(只是几列的快照)
我想按键分组我的数据。我的钥匙是
我的最终目标是将数据转换为 JSON,格式如下
例如
1384611034793[{},{},{}],....
我创建了一个数据框(我加入两个表基本上是为了获得更多字段)
FROM scoop_dtl a join scoop_hdr b on (a.precima_id =b.precima_id)")
现在,为了获得上述结果,我需要根据键对结果进行分组,我做了以下
这导致 intp 分组数据,阅读后我知道我不能直接使用它,我需要将它转换回数据帧来存储它。
我是新手,需要一些帮助才能将其转换回数据框,或者如果还有其他方法,我将不胜感激。
pyspark - 如何将每个值与pyspark中的每个其他值进行比较?
我在 spark 中有一个数据框,如下所示
我想要一个看起来像这样的数据框:-
因此,它应该考虑两列的所有可能组合。如何做到这一点?
我尝试了笛卡尔连接,但是对于非常小的数据集来说需要太多时间。还有其他选择吗?
谢谢。
apache-spark - 如何使用 PySpark、SparkSQL 和 Cassandra?
我对这个故事中的不同参与者有点困惑:PySpark、SparkSQL、Cassandra 和 pyspark-cassandra 连接器。
据我了解,Spark 发展了很多,SparkSQL 现在是一个关键组件(带有“数据帧”)。显然,没有 SparkSQL 绝对没有理由工作,尤其是在连接到 Cassandra 时。
所以我的问题是:需要什么组件以及如何以最简单的方式将它们连接在一起?
在spark-shell
Scala 中,我可以简单地做
接着
我该怎么做pyspark
?
这里有几个子问题以及我收集的部分答案(如果我错了,请纠正)。
是否需要 pyspark-casmandra(我不这么认为——我不明白一开始在做什么)
我需要使用
pyspark
还是可以使用我的常规jupyter notebook
并自己导入必要的东西?
apache-spark - Spark.sql 选择其他表中没有匹配列的行
我有一个名为边缘的数据框,如下所示:
我不想在 src 和 dst 列中重复任何内容。例如 78 是第一行的 src,所以它不能作为最后一行的 dst。换句话说,任何一个顶点在表格中只能出现一个。
该表也应按 mean_affinity 排序。我开始为此编写查询,但它似乎不起作用:
这是堆栈跟踪的一部分:
谢谢!