问题标签 [pyspark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 使用 pyspark,在 hadoop 文件系统上读/写 2D 图像
我希望能够在 hdfs 文件系统上读取/写入图像并利用 hdfs 位置。
我有一组图像,其中每个图像由
- uint16 的二维数组
- 存储为 xml 文件的基本附加信息。
我想通过 hdfs 文件系统创建一个存档,并使用 spark 来分析存档。现在,我正在努力寻找通过 hdfs 文件系统存储数据的最佳方式,以便能够充分利用 spark+hdfs 结构。
据我了解,最好的方法是创建一个 sequenceFile 包装器。我有两个问题:
- 创建一个 sequenceFile 包装器是最好的方法吗?
- 有没有人有任何指向我可以用来开始的例子的指针?我一定不是第一个需要通过 spark 读取与 hdfs 上的文本文件不同的东西的人!
apache-spark - 在地图操作中发出多对
假设我有一排电话记录格式:
如果我想知道给定用户在电话上的总时间(用户是呼叫用户或接收用户的持续时间总和)。
实际上,对于给定的记录,我想创建 2 对(CallingUser, Duration)
和(ReceivingUser, Duration)
.
最有效的方法是什么?我可以将 2 加RDDs
在一起,但我不清楚这是否是一个好方法:
python-2.7 - 获取 PySpark 中可见节点的数量
我在 PySpark 中运行一些操作,最近增加了我的配置(在 Amazon EMR 上)中的节点数量。然而,即使我将节点数量增加了两倍(从 4 个到 12 个),性能似乎并没有改变。因此,我想看看新节点是否对 Spark 可见。
我正在调用以下函数:
但我认为这告诉我分配给每个节点的任务总数,而不是 Spark 可以看到的节点总数。
如何查看 PySpark 在集群中使用的节点数量?
apache-spark - 如何从 SparkContext 获取 WebUI URI
我在 IPython 笔记本中运行 pySpark。每个 notebook 都有自己的 sparkContext,每个 notebook 在自己的端口上都有一个关联的 webUI,从 4040 开始。
我想提取并打印端口或 URI,以便我可以浏览到正确的 webUI。我怎样才能得到这个信息?
apache-spark - from pyspark.streaming import StreamingContext ImportError: No module named streaming
from pyspark.streaming import StreamingContext ImportError: No module named streaming
当我尝试通过 pyspark 使用流式传输时,会出现此错误。我成功地能够通过 scala 使用流式传输。
导入 org.apache.spark.streaming._
不给出错误,我能够运行该程序。
我在http://hortonworks.com/hadoop-tutorial/using-apache-spark-hdp/上运行 spark
python - 使用 Spark 加载 CSV 文件
我是 Spark 的新手,我正在尝试使用 Spark 从文件中读取 CSV 数据。这就是我正在做的事情:
我希望这个调用能给我一个文件前两列的列表,但我收到了这个错误:
文件“”,第 1 行,在 IndexError:列表索引超出范围
虽然我的 CSV 文件不止一列。
apache-spark - PySpark 和 MLLib:随机森林预测的类概率
我正在尝试提取我使用 PySpark 训练的随机森林对象的类概率。但是,我在文档中的任何地方都没有看到它的示例,也不是RandomForestModel
.
如何从RandomForestModel
PySpark 中的分类器中提取类概率?
这是文档中提供的示例代码,仅提供最终类(不是概率):
我没有看到任何model.predict_proba()
方法——我该怎么办?
scala - 如何从 pyspark 设置 hadoop 配置值
SparkContext 的 Scala 版本具有以下属性
我已经成功地使用它来设置 Hadoop 属性(在 Scala 中)
例如
然而,SparkContext 的 python 版本缺少该访问器。有没有办法将 Hadoop 配置值设置到 PySpark 上下文使用的 Hadoop 配置中?
apache-spark - 包含 repartition() 的 Spark 作业的“尚未开始任何任务”
一段时间以来,我对pyspark工作的“尚未开始任何任务”挠头后,问题已被隔离为:
作品:
添加 repartition() 并挂起“尚未启动任何任务”:
这是与 CDH5 捆绑在一起的 1.2.0
apache-spark - 来自 pyspark worker 的 HDFS / Hadoop api 访问
我需要从 pyspark worker中读取/扫描/写入文件到 hdfs 。
请注意,以下 api 不适用,因为它们会脱离驱动程序:
ETC
最好不要涉及额外的第三方库(例如 pyhadoop)。
一种选择是掏出例如
但是有没有更原生的 pyspark 方法来实现这一点?
更新这不是广播数据的情况,因为每个工作人员将从 hdfs 读取不同的数据。其中一个用例是在每个工作人员中读取一些大型二进制文件(这显然不是广播的情况)。另一种情况是读取包含指令的“命令”文件。我已经在原生 hadoop 和 scala spark 中成功使用了这种模式。