问题标签 [pyspark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
26878 浏览

python - 如何在 PySpark 中删除 RDD 以释放资源?

如果我有一个不再需要的 RDD,如何从内存中删除它?以下是否足以完成这项工作:

谢谢!

0 投票
1 回答
2895 浏览

apache-spark - 如何从 PySpark 中的 JavaSparkContext 获取 SparkContext?

当我运行 PySpark 时,执行

成功地给了我一些不错的输出,比如

在跑步的时候

给我一个 Java NPE 的 Py4J 错误

通过Py4J,为什么我无法访问我被授予访问权限中SparkContext包含的内容?JavaSparkContext

0 投票
1 回答
1753 浏览

java - MetaException(消息:java.lang.IllegalArgumentException:java.net.UnknownHostException)在pyspark上运行sql查询时

我在 docker 上运行 pyspark。我可以使用 pyspark 进行基本操作。但是当我尝试执行 sql 查询时,出现以下异常

但是当我执行以下查询时,出现以下错误

有人可以帮忙解决这个问题吗?

0 投票
4 回答
6307 浏览

closures - 访问 Spark RDD 时在闭包中使用局部变量

我有一个关于在访问 Spark RDD 时在闭包中使用局部变量的问题。我想解决的问题如下:

我有一个应该读入 RDD 的文本文件列表。但是,首先我需要向从单个文本文件创建的 RDD 添加其他信息。此附加信息是从文件名中提取的。然后,使用 union() 将 RDD 放入一个大 RDD。

问题是循环中的 map() 函数没有引用“正确的”file_owner。相反,它将引用 file_owner 的最新值。在我的本地机器上,我设法通过为每个 RDD 调用 cache() 函数来解决这个问题:

我的问题:使用 cache() 是解决我问题的正确方法吗?有没有其他选择?

非常感谢!

0 投票
1 回答
4209 浏览

redis - Spark:如何向 Spark foreach 函数发送参数

我正在尝试使用以下代码将 Spark RDD 的内容保存到 Redis

但我希望 Redis 密钥根据 self.source_action_name 的初始化内容而有所不同(在 BaseStorageAdapter 中)

如何将 source_action_name 传递给 RedisStorageAdapter.save 函数?foreach 函数只允许执行函数名,没有参数列表

另外 - 如果有更好的方法将数据从 RDD 移动到 Redis,请告诉我

0 投票
4 回答
4953 浏览

apache-spark - YARN 集群上的 PySpark 分布式处理

我在 Cloudera CDH5.3 集群上运行 Spark,使用 YARN 作为资源管理器。我正在用 Python (PySpark) 开发 Spark 应用程序。

我可以提交作业并且它们运行成功,但是它们似乎从未在超过一台机器(我提交的本地机器)上运行。

我尝试了多种选择,例如将 --deploy-mode 设置为 cluster 并将 --master 设置为 yarn-client 和 yarn-cluster,但它似乎从未在多个服务器上运行。

我可以通过传递 --master local[8] 之类的东西让它在多个核心上运行,但这显然不会将处理分布在多个节点上。

我有一个非常简单的 Python 脚本处理来自 HDFS 的数据,如下所示:

我正在运行一个提交命令,例如:

我可以做些什么来确保作业在集群中并行运行?

0 投票
4 回答
18540 浏览

apache-spark - PySpark 错误:“输入路径不存在”

我是 Spark 的新手,我用 Python 编写代码。

完全按照我的“学习 Spark”指南,我看到“你不需要安装 Hadoop 来运行 Spark”

然而,当我只是尝试使用 Pyspark 计算一个文件中的行数时,我收到以下错误。我错过了什么?

0 投票
3 回答
2137 浏览

installation - 安装 Spark 问题。无法使用 pyspark 打开 IPython Notebook

这是错误的链接:http: //i.imgur.com/N9ccVsM.jpg

我正在尝试独立安装 spark 工作,但出现此错误。我将环境变量中的 JAVA_HOME 设置为“C:\Program Files (x86)\Java\jre1.8.0_31”。

在我输入 pyspark 后,ipthon notebook 应该会在新标签页中打开,但它不会。

似乎找不到带有“笔记本”的东西,但不确定

谢谢马特

0 投票
1 回答
1032 浏览

scala - Spark-Scala HBase 表创建失败(MetaException(消息:文件:/user/hive/warehouse/src 不是目录或无法创建目录)

我的虚拟机中运行着 hortonworks 沙箱。我已经完成了所有 hive-site.xml 配置并放在 Spark/conf 文件中。

我可以使用 PySpark 访问 HBase 并创建/更新表,但是当我在 scala 中执行相同的实现时,它给了我以下错误:

失败:执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1。MetaException(消息:文件:/user/hive/warehouse/src 不是目录或无法创建目录)

我也更改了对“hive/warehouse”文件夹的权限,但仍然给我同样的错误。

我的 hive-site.xml 包含以下属性

非常感谢您提前。

0 投票
3 回答
3780 浏览

maven - 如何使用 Maven 构建 Spark 1.2(给出 java.io.IOException:无法运行程序“javac”)?

我正在尝试使用 Maven 构建 Spark 1.2。我的目标是在 Hadoop 2.2 上使用 PySpark 和 YARN。

我看到这只能通过使用 Maven 构建 Spark 来实现。首先,这是真的吗?

如果是真的,下面的日志中的问题是什么?我该如何纠正?