问题标签 [pyspark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在 PySpark 中删除 RDD 以释放资源?
如果我有一个不再需要的 RDD,如何从内存中删除它?以下是否足以完成这项工作:
谢谢!
apache-spark - 如何从 PySpark 中的 JavaSparkContext 获取 SparkContext?
当我运行 PySpark 时,执行
成功地给了我一些不错的输出,比如
在跑步的时候
给我一个 Java NPE 的 Py4J 错误
通过Py4J,为什么我无法访问我被授予访问权限中SparkContext
包含的内容?JavaSparkContext
java - MetaException(消息:java.lang.IllegalArgumentException:java.net.UnknownHostException)在pyspark上运行sql查询时
我在 docker 上运行 pyspark。我可以使用 pyspark 进行基本操作。但是当我尝试执行 sql 查询时,出现以下异常
但是当我执行以下查询时,出现以下错误
有人可以帮忙解决这个问题吗?
closures - 访问 Spark RDD 时在闭包中使用局部变量
我有一个关于在访问 Spark RDD 时在闭包中使用局部变量的问题。我想解决的问题如下:
我有一个应该读入 RDD 的文本文件列表。但是,首先我需要向从单个文本文件创建的 RDD 添加其他信息。此附加信息是从文件名中提取的。然后,使用 union() 将 RDD 放入一个大 RDD。
问题是循环中的 map() 函数没有引用“正确的”file_owner。相反,它将引用 file_owner 的最新值。在我的本地机器上,我设法通过为每个 RDD 调用 cache() 函数来解决这个问题:
我的问题:使用 cache() 是解决我问题的正确方法吗?有没有其他选择?
非常感谢!
redis - Spark:如何向 Spark foreach 函数发送参数
我正在尝试使用以下代码将 Spark RDD 的内容保存到 Redis
但我希望 Redis 密钥根据 self.source_action_name 的初始化内容而有所不同(在 BaseStorageAdapter 中)
如何将 source_action_name 传递给 RedisStorageAdapter.save 函数?foreach 函数只允许执行函数名,没有参数列表
另外 - 如果有更好的方法将数据从 RDD 移动到 Redis,请告诉我
apache-spark - YARN 集群上的 PySpark 分布式处理
我在 Cloudera CDH5.3 集群上运行 Spark,使用 YARN 作为资源管理器。我正在用 Python (PySpark) 开发 Spark 应用程序。
我可以提交作业并且它们运行成功,但是它们似乎从未在超过一台机器(我提交的本地机器)上运行。
我尝试了多种选择,例如将 --deploy-mode 设置为 cluster 并将 --master 设置为 yarn-client 和 yarn-cluster,但它似乎从未在多个服务器上运行。
我可以通过传递 --master local[8] 之类的东西让它在多个核心上运行,但这显然不会将处理分布在多个节点上。
我有一个非常简单的 Python 脚本处理来自 HDFS 的数据,如下所示:
我正在运行一个提交命令,例如:
我可以做些什么来确保作业在集群中并行运行?
apache-spark - PySpark 错误:“输入路径不存在”
我是 Spark 的新手,我用 Python 编写代码。
完全按照我的“学习 Spark”指南,我看到“你不需要安装 Hadoop 来运行 Spark”
然而,当我只是尝试使用 Pyspark 计算一个文件中的行数时,我收到以下错误。我错过了什么?
installation - 安装 Spark 问题。无法使用 pyspark 打开 IPython Notebook
这是错误的链接:http: //i.imgur.com/N9ccVsM.jpg
我正在尝试独立安装 spark 工作,但出现此错误。我将环境变量中的 JAVA_HOME 设置为“C:\Program Files (x86)\Java\jre1.8.0_31”。
在我输入 pyspark 后,ipthon notebook 应该会在新标签页中打开,但它不会。
似乎找不到带有“笔记本”的东西,但不确定
谢谢马特
scala - Spark-Scala HBase 表创建失败(MetaException(消息:文件:/user/hive/warehouse/src 不是目录或无法创建目录)
我的虚拟机中运行着 hortonworks 沙箱。我已经完成了所有 hive-site.xml 配置并放在 Spark/conf 文件中。
我可以使用 PySpark 访问 HBase 并创建/更新表,但是当我在 scala 中执行相同的实现时,它给了我以下错误:
失败:执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1。MetaException(消息:文件:/user/hive/warehouse/src 不是目录或无法创建目录)
我也更改了对“hive/warehouse”文件夹的权限,但仍然给我同样的错误。
我的 hive-site.xml 包含以下属性
非常感谢您提前。
maven - 如何使用 Maven 构建 Spark 1.2(给出 java.io.IOException:无法运行程序“javac”)?
我正在尝试使用 Maven 构建 Spark 1.2。我的目标是在 Hadoop 2.2 上使用 PySpark 和 YARN。
我看到这只能通过使用 Maven 构建 Spark 来实现。首先,这是真的吗?
如果是真的,下面的日志中的问题是什么?我该如何纠正?