问题标签 [apache-spark-1.5]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

45 问题

0 投票

0 回答

127 浏览

apache-spark - Spark：我可以在 spark 1.5.1 中保存使用 ml 包生成的模型吗？

我想将 spark 的 ml 包创建的模型保存为 spark models(.paraquet) 或 pmml。model.save 方法仅适用于 spark 1.6 或更高版本。有什么方法可以使用 spark 1.5.1 保存我的模型吗？

apache-spark pyspark apache-spark-mllib apache-spark-ml apache-spark-1.5

2016-08-30T08:29:17.620

0 投票

2 回答

268 浏览

apache-spark - Python Spark Dataframes：如何根据不同列的条件更新列

我想做非常简单的事情，但无法弄清楚如何在 Python/Spark(1.5)/Dataframe 中做到这一点（这对我来说是全新的）。

原始数据集：

新数据集：

我想做这样的事情（在伪 Python 中？）：

为简单起见， mapCountry 可能如下所示：

但这是有错误的：ValueError: Cannot convert column into bool:

apache-spark spark-dataframe apache-spark-1.5

2016-09-06T03:22:54.347

0 投票

1 回答

920 浏览

spark-streaming - Spark Kafka Receiver 未从所有分区中提取数据

我创建了一个包含 5 个分区的 Kafka 主题。我正在使用 createStream 接收器 API，如下所示。但不知何故，只有一个接收器正在获取输入数据。其余的接收者不处理任何东西。你能帮忙吗？

添加更改后，我得到以下异常：

spark-streaming apache-spark-1.5

2016-09-14T19:42:21.753

0 投票

0 回答

545 浏览

java - Spark 2.0 按空值分组

致力于将一些查询从 Spark 1.5 迁移到 Spark 2.0

查询如下：

首先，我知道在 Spark 中，空值检查在 group by 中使用时不起作用，并且调用LENGTH()值和空值检查可以正常工作。

运行上面的查询，我得到以下错误：

SQL Error: java.lang.IllegalArgumentException: Unrecognized type name: null\"

任何想法是什么问题？

java apache-spark apache-spark-sql apache-spark-1.5 apache-spark-2.0

2016-10-04T23:11:34.340

0 投票

1 回答

145 浏览

hadoop - Hadoop YARN 上的 Spark - 缺少执行程序

我有一个由 3 台运行 Hadoop 和 Spark-1.5.2 的 macOS 机器组成的集群（尽管使用 Spark-2.0.0 存在同样的问题）。使用“纱线”作为 Spark 主 URL，我遇到了一个奇怪的问题，即任务仅分配给 3 台机器中的 2 台。

根据 Hadoop 仪表板（主服务器上的端口 8088），很明显所有 3 个节点都是集群的一部分。但是，我运行的任何 Spark 作业都只使用 2 个执行器。

例如，这里是长时间运行 JavaWordCount 示例的“Executors”选项卡： “batservers”是主服务器。应该有一个额外的奴隶，“batservers2”，但它只是不存在。

为什么会这样？

请注意，我的 YARN 或 Spark（或者，就此而言，HDFS）配置都没有异常，除了为 YARN 资源和节点管理器提供额外内存的规定。

hadoop apache-spark hadoop-yarn apache-spark-1.5

2016-10-10T22:37:48.260

0 投票

0 回答

49 浏览

python - 在 spark 1.5.0、python 2.6 中定义字典时出错

我正在使用 Python 2.6.6 运行 Cloudera Spark 1.5.0

我已经定义了 3 个这样的函数

从其他功能，我这样打电话

我收到这样的错误

我的语法有什么问题。在databricks环境中运行良好

python apache-spark pyspark python-2.6 apache-spark-1.5

2016-12-20T12:58:43.963

0 投票

1 回答

1160 浏览

apache-spark - 如何用点重命名列？

我使用 Spark 1.5。

我正在努力处理名称中包含点的列（例如 param.xy）。我首先遇到了选择它们的问题，但后来我读到我需要使用`字符（`param.xy`）。

现在我在尝试重命名列时遇到问题。我正在使用类似的方法，但似乎它不起作用：

所以我想检查一下——这真的是一个错误，还是我做错了什么？

apache-spark pyspark apache-spark-1.5

2016-12-26T09:09:25.063

0 投票

0 回答

315 浏览

scala - 在 Spark 中读取非空的多个文件

我曾经sc.textFile()在 Spark 中从 S3 读取多个文件。但是，输入 S3 路径也有一些空文件，它们会给出 NullPointerException。有没有办法可以忽略这些文件？

编辑：添加堆栈跟踪

scala apache-spark amazon-s3 apache-spark-1.5

2017-01-17T18:19:39.607

0 投票

2 回答

23421 浏览

scala - 如何在应用 agg 函数之前将十进制值限制为 2 位？

我正在从堆栈溢出帖子之一中遵循此解决方案，我唯一的要求是如何在应用df.agg(sum())函数之前将要求和的值限制为小数点后 2 位？

例如：我有如下值， sum 函数将其相加，

但是我希望将值四舍五入到小数点后的 2 位，例如

在总结之前。我该怎么做？我找不到任何像 function 这样sum().round的子函数sum。

注意：我使用的是 Spark 1.5.1 版本。

scala apache-spark apache-spark-sql apache-spark-1.5

2017-01-17T19:40:08.440

0 投票

2 回答

3143 浏览

left-join - Spark SQL 1.5.2：左不包括连接

给定 dataframesdf_a和df_b，我怎样才能获得与 left 不包括 join 相同的结果：

我试过了：

我从上面得到一个例外：

left-join apache-spark-sql apache-spark-1.5

2017-04-10T23:10:52.663

1 2 3 4 5 6 7 8 9 10