问题标签 [pyspark]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

30583 问题

0 投票

1 回答

6548 浏览

hadoop - 使用 pyspark，在 hadoop 文件系统上读/写 2D 图像

我希望能够在 hdfs 文件系统上读取/写入图像并利用 hdfs 位置。

我有一组图像，其中每个图像由

uint16 的二维数组
存储为 xml 文件的基本附加信息。

我想通过 hdfs 文件系统创建一个存档，并使用 spark 来分析存档。现在，我正在努力寻找通过 hdfs 文件系统存储数据的最佳方式，以便能够充分利用 spark+hdfs 结构。

据我了解，最好的方法是创建一个 sequenceFile 包装器。我有两个问题：

创建一个 sequenceFile 包装器是最好的方法吗？
有没有人有任何指向我可以用来开始的例子的指针？我一定不是第一个需要通过 spark 读取与 hdfs 上的文本文件不同的东西的人！

2015-02-25T22:46:48.757

0 投票

2 回答

9298 浏览

apache-spark - 在地图操作中发出多对

假设我有一排电话记录格式：

如果我想知道给定用户在电话上的总时间（用户是呼叫用户或接收用户的持续时间总和）。

实际上，对于给定的记录，我想创建 2 对(CallingUser, Duration)和(ReceivingUser, Duration).

最有效的方法是什么？我可以将 2 加RDDs在一起，但我不清楚这是否是一个好方法：

apache-spark pyspark

2015-02-27T07:01:55.700

0 投票

5 回答

17839 浏览

python-2.7 - 获取 PySpark 中可见节点的数量

我在 PySpark 中运行一些操作，最近增加了我的配置（在 Amazon EMR 上）中的节点数量。然而，即使我将节点数量增加了两倍（从 4 个到 12 个），性能似乎并没有改变。因此，我想看看新节点是否对 Spark 可见。

我正在调用以下函数：

但我认为这告诉我分配给每个节点的任务总数，而不是 Spark 可以看到的节点总数。

如何查看 PySpark 在集群中使用的节点数量？

python-2.7 apache-spark pyspark

2015-02-27T15:30:15.720

0 投票

1 回答

5174 浏览

apache-spark - 如何从 SparkContext 获取 WebUI URI

我在 IPython 笔记本中运行 pySpark。每个 notebook 都有自己的 sparkContext，每个 notebook 在自己的端口上都有一个关联的 webUI，从 4040 开始。
我想提取并打印端口或 URI，以便我可以浏览到正确的 webUI。我怎样才能得到这个信息？

apache-spark pyspark

2015-02-27T20:06:25.863

0 投票

1 回答

670 浏览

apache-spark - from pyspark.streaming import StreamingContext ImportError: No module named streaming

from pyspark.streaming import StreamingContext ImportError: No module named streaming

当我尝试通过 pyspark 使用流式传输时，会出现此错误。我成功地能够通过 scala 使用流式传输。

导入 org.apache.spark.streaming._

不给出错误，我能够运行该程序。

我在http://hortonworks.com/hadoop-tutorial/using-apache-spark-hdp/上运行 spark

apache-spark pyspark

2015-02-28T13:56:25.470

0 投票

13 回答

378374 浏览

python - 使用 Spark 加载 CSV 文件

我是 Spark 的新手，我正在尝试使用 Spark 从文件中读取 CSV 数据。这就是我正在做的事情：

我希望这个调用能给我一个文件前两列的列表，但我收到了这个错误：

文件“”，第 1 行，在 IndexError：列表索引超出范围

虽然我的 CSV 文件不止一列。

python csv apache-spark pyspark apache-spark-sql

2015-02-28T14:41:00.303

0 投票

4 回答

8809 浏览

apache-spark - PySpark 和 MLLib：随机森林预测的类概率

我正在尝试提取我使用 PySpark 训练的随机森林对象的类概率。但是，我在文档中的任何地方都没有看到它的示例，也不是RandomForestModel.

如何从RandomForestModelPySpark 中的分类器中提取类概率？

这是文档中提供的示例代码，仅提供最终类（不是概率）：

我没有看到任何model.predict_proba()方法——我该怎么办？

apache-spark pyspark random-forest apache-spark-mllib

2015-03-02T20:15:22.613

0 投票

3 回答

37621 浏览

scala - 如何从 pyspark 设置 hadoop 配置值

SparkContext 的 Scala 版本具有以下属性

我已经成功地使用它来设置 Hadoop 属性（在 Scala 中）

例如

然而，SparkContext 的 python 版本缺少该访问器。有没有办法将 Hadoop 配置值设置到 PySpark 上下文使用的 Hadoop 配置中？

scala apache-spark pyspark

2015-03-04T00:29:31.730

0 投票

0 回答

1068 浏览

apache-spark - 包含 repartition() 的 Spark 作业的“尚未开始任何任务”

一段时间以来，我对pyspark工作的“尚未开始任何任务”挠头后，问题已被隔离为：

作品：

添加 repartition() 并挂起“尚未启动任何任务”：

这是与 CDH5 捆绑在一起的 1.2.0

apache-spark pyspark

2015-03-07T22:44:48.533

0 投票

2 回答

2770 浏览

apache-spark - 来自 pyspark worker 的 HDFS / Hadoop api 访问

我需要从 pyspark worker中读取/扫描/写入文件到 hdfs 。

请注意，以下 api 不适用，因为它们会脱离驱动程序：

ETC

最好不要涉及额外的第三方库（例如 pyhadoop）。

一种选择是掏出例如

但是有没有更原生的 pyspark 方法来实现这一点？

更新这不是广播数据的情况，因为每个工作人员将从 hdfs 读取不同的数据。其中一个用例是在每个工作人员中读取一些大型二进制文件（这显然不是广播的情况）。另一种情况是读取包含指令的“命令”文件。我已经在原生 hadoop 和 scala spark 中成功使用了这种模式。

apache-spark hdfs pyspark

2015-03-09T19:10:17.630

1 2 3 4 5 6 7 8 9 10

问题标签 [pyspark]

Reference