问题标签 [apache-spark-1.5]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
127 浏览

apache-spark - Spark:我可以在 spark 1.5.1 中保存使用 ml 包生成的模型吗?

我想将 spark 的 ml 包创建的模型保存为 spark models(.paraquet) 或 pmml。model.save 方法仅适用于 spark 1.6 或更高版本。有什么方法可以使用 spark 1.5.1 保存我的模型吗?

0 投票
2 回答
268 浏览

apache-spark - Python Spark Dataframes:如何根据不同列的条件更新列

我想做非常简单的事情,但无法弄清楚如何在 Python/Spark(1.5)/Dataframe 中做到这一点(这对我来说是全新的)。

原始数据集:

新数据集:

我想做这样的事情(在伪 Python 中?):

为简单起见, mapCountry 可能如下所示:

但这是有错误的:ValueError: Cannot convert column into bool:

0 投票
1 回答
920 浏览

spark-streaming - Spark Kafka Receiver 未从所有分区中提取数据

我创建了一个包含 5 个分区的 Kafka 主题。我正在使用 createStream 接收器 API,如下所示。但不知何故,只有一个接收器正在获取输入数据。其余的接收者不处理任何东西。你能帮忙吗?

带有 MultipleReceiver 的 Spark UI

添加更改后,我得到以下异常:

0 投票
0 回答
545 浏览

java - Spark 2.0 按空值分组

致力于将一些查询从 Spark 1.5 迁移到 Spark 2.0

查询如下:

首先,我知道在 Spark 中,空值检查在 group by 中使用时不起作用,并且调用LENGTH()值和空值检查可以正常工作。

运行上面的查询,我得到以下错误:

SQL Error: java.lang.IllegalArgumentException: Unrecognized type name: null\"

任何想法是什么问题?

0 投票
1 回答
145 浏览

hadoop - Hadoop YARN 上的 Spark - 缺少执行程序

我有一个由 3 台运行 Hadoop 和 Spark-1.5.2 的 macOS 机器组成的集群(尽管使用 Spark-2.0.0 存在同样的问题)。使用“纱线”作为 Spark 主 URL,我遇到了一个奇怪的问题,即任务仅分配给 3 台机器中的 2 台。

根据 Hadoop 仪表板(主服务器上的端口 8088),很明显所有 3 个节点都是集群的一部分。但是,我运行的任何 Spark 作业都只使用 2 个执行器。

例如,这里是长时间运行 JavaWordCount 示例的“Executors”选项卡: 在此处输入图像描述 “batservers”是主服务器。应该有一个额外的奴隶,“batservers2”,但它只是不存在。

为什么会这样?

请注意,我的 YARN 或 Spark(或者,就此而言,HDFS)配置都没有异常,除了为 YARN 资源和节点管理器提供额外内存的规定。

0 投票
0 回答
49 浏览

python - 在 spark 1.5.0、python 2.6 中定义字典时出错

我正在使用 Python 2.6.6 运行 Cloudera Spark 1.5.0

我已经定义了 3 个这样的函数

从其他功能,我这样打电话

我收到这样的错误

我的语法有什么问题。在databricks环境中运行良好

0 投票
1 回答
1160 浏览

apache-spark - 如何用点重命名列?

我使用 Spark 1.5。

我正在努力处理名称中包含点的列(例如 param.xy)。我首先遇到了选择它们的问题,但后来我读到我需要使用`字符(`param.xy`)。

现在我在尝试重命名列时遇到问题。我正在使用类似的方法,但似乎它不起作用:

所以我想检查一下——这真的是一个错误,还是我做错了什么?

0 投票
0 回答
315 浏览

scala - 在 Spark 中读取非空的多个文件

我曾经sc.textFile()在 Spark 中从 S3 读取多个文件。但是,输入 S3 路径也有一些空文件,它们会给出 NullPointerException。有没有办法可以忽略这些文件?

编辑:添加堆栈跟踪

0 投票
2 回答
23421 浏览

scala - 如何在应用 agg 函数之前将十进制值限制为 2 位?

我正在从堆栈溢出帖子之一中遵循解决方案,我唯一的要求是如何在应用df.agg(sum())函数之前将要求和的值限制为小数点后 2 位?

例如:我有如下值, sum 函数将其相加,

但是我希望将值四舍五入到小数点后的 2 位,例如

在总结之前。我该怎么做?我找不到任何像 function 这样sum().round的子函数sum

注意:我使用的是 Spark 1.5.1 版本。

0 投票
2 回答
3143 浏览

left-join - Spark SQL 1.5.2:左不包括连接

给定 dataframesdf_adf_b,我怎样才能获得与 left 不包括 join 相同的结果:

我试过了:

我从上面得到一个例外: