问题标签 [pyspark]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

30583 问题

0 投票

4 回答

26878 浏览

python - 如何在 PySpark 中删除 RDD 以释放资源？

如果我有一个不再需要的 RDD，如何从内存中删除它？以下是否足以完成这项工作：

谢谢！

2015-01-16T18:39:23.617

0 投票

1 回答

2895 浏览

apache-spark - 如何从 PySpark 中的 JavaSparkContext 获取 SparkContext？

当我运行 PySpark 时，执行

成功地给了我一些不错的输出，比如

在跑步的时候

给我一个 Java NPE 的 Py4J 错误

通过Py4J，为什么我无法访问我被授予访问权限中SparkContext包含的内容？JavaSparkContext

apache-spark py4j pyspark

2015-01-22T02:35:15.063

0 投票

1 回答

1753 浏览

java - MetaException（消息：java.lang.IllegalArgumentException：java.net.UnknownHostException）在pyspark上运行sql查询时

我在 docker 上运行 pyspark。我可以使用 pyspark 进行基本操作。但是当我尝试执行 sql 查询时，出现以下异常

但是当我执行以下查询时，出现以下错误

有人可以帮忙解决这个问题吗？

java hive apache-spark apache-spark-sql pyspark

2015-01-23T15:42:15.040

0 投票

4 回答

6307 浏览

closures - 访问 Spark RDD 时在闭包中使用局部变量

我有一个关于在访问 Spark RDD 时在闭包中使用局部变量的问题。我想解决的问题如下：

我有一个应该读入 RDD 的文本文件列表。但是，首先我需要向从单个文本文件创建的 RDD 添加其他信息。此附加信息是从文件名中提取的。然后，使用 union() 将 RDD 放入一个大 RDD。

问题是循环中的 map() 函数没有引用“正确的”file_owner。相反，它将引用 file_owner 的最新值。在我的本地机器上，我设法通过为每个 RDD 调用 cache() 函数来解决这个问题：

我的问题：使用 cache() 是解决我问题的正确方法吗？有没有其他选择？

非常感谢！

closures apache-spark rdd pyspark

2015-01-28T22:57:58.577

0 投票

1 回答

4209 浏览

redis - Spark：如何向 Spark foreach 函数发送参数

我正在尝试使用以下代码将 Spark RDD 的内容保存到 Redis

但我希望 Redis 密钥根据 self.source_action_name 的初始化内容而有所不同（在 BaseStorageAdapter 中）

如何将 source_action_name 传递给 RedisStorageAdapter.save 函数？foreach 函数只允许执行函数名，没有参数列表

另外 - 如果有更好的方法将数据从 RDD 移动到 Redis，请告诉我

redis apache-spark pyspark

2015-01-28T23:38:29.450

0 投票

4 回答

4953 浏览

apache-spark - YARN 集群上的 PySpark 分布式处理

我在 Cloudera CDH5.3 集群上运行 Spark，使用 YARN 作为资源管理器。我正在用 Python (PySpark) 开发 Spark 应用程序。

我可以提交作业并且它们运行成功，但是它们似乎从未在超过一台机器（我提交的本地机器）上运行。

我尝试了多种选择，例如将 --deploy-mode 设置为 cluster 并将 --master 设置为 yarn-client 和 yarn-cluster，但它似乎从未在多个服务器上运行。

我可以通过传递 --master local[8] 之类的东西让它在多个核心上运行，但这显然不会将处理分布在多个节点上。

我有一个非常简单的 Python 脚本处理来自 HDFS 的数据，如下所示：

我正在运行一个提交命令，例如：

我可以做些什么来确保作业在集群中并行运行？

apache-spark hadoop-yarn cloudera-cdh pyspark

2015-01-30T05:06:27.980

0 投票

4 回答

18540 浏览

apache-spark - PySpark 错误：“输入路径不存在”

我是 Spark 的新手，我用 Python 编写代码。

完全按照我的“学习 Spark”指南，我看到“你不需要安装 Hadoop 来运行 Spark”

然而，当我只是尝试使用 Pyspark 计算一个文件中的行数时，我收到以下错误。我错过了什么？

apache-spark pyspark

2015-02-01T05:37:37.093

0 投票

3 回答

2137 浏览

installation - 安装 Spark 问题。无法使用 pyspark 打开 IPython Notebook

这是错误的链接：http: //i.imgur.com/N9ccVsM.jpg

我正在尝试独立安装 spark 工作，但出现此错误。我将环境变量中的 JAVA_HOME 设置为“C:\Program Files (x86)\Java\jre1.8.0_31”。

在我输入 pyspark 后，ipthon notebook 应该会在新标签页中打开，但它不会。

似乎找不到带有“笔记本”的东西，但不确定

谢谢马特

installation apache-spark ipython ipython-notebook pyspark

2015-02-01T17:06:58.497

0 投票

1 回答

1032 浏览

scala - Spark-Scala HBase 表创建失败（MetaException（消息：文件：/user/hive/warehouse/src 不是目录或无法创建目录）

我的虚拟机中运行着 hortonworks 沙箱。我已经完成了所有 hive-site.xml 配置并放在 Spark/conf 文件中。

我可以使用 PySpark 访问 HBase 并创建/更新表，但是当我在 scala 中执行相同的实现时，它给了我以下错误：

失败：执行错误，从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1。MetaException（消息：文件：/user/hive/warehouse/src 不是目录或无法创建目录）

我也更改了对“hive/warehouse”文件夹的权限，但仍然给我同样的错误。

我的 hive-site.xml 包含以下属性

非常感谢您提前。

scala hadoop hbase apache-spark pyspark

2015-02-02T18:42:15.503

0 投票

3 回答

3780 浏览

maven - 如何使用 Maven 构建 Spark 1.2（给出 java.io.IOException：无法运行程序“javac”）？

我正在尝试使用 Maven 构建 Spark 1.2。我的目标是在 Hadoop 2.2 上使用 PySpark 和 YARN。

我看到这只能通过使用 Maven 构建 Spark 来实现。首先，这是真的吗？

如果是真的，下面的日志中的问题是什么？我该如何纠正？

maven apache-spark pyspark

2015-02-09T02:24:18.023

1 2 3 4 5 6 7 8 9 10

问题标签 [pyspark]

Reference