问题标签 [apache-spark-1.5]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark:我可以在 spark 1.5.1 中保存使用 ml 包生成的模型吗?
我想将 spark 的 ml 包创建的模型保存为 spark models(.paraquet) 或 pmml。model.save 方法仅适用于 spark 1.6 或更高版本。有什么方法可以使用 spark 1.5.1 保存我的模型吗?
apache-spark - Python Spark Dataframes:如何根据不同列的条件更新列
我想做非常简单的事情,但无法弄清楚如何在 Python/Spark(1.5)/Dataframe 中做到这一点(这对我来说是全新的)。
原始数据集:
新数据集:
我想做这样的事情(在伪 Python 中?):
为简单起见, mapCountry 可能如下所示:
但这是有错误的:ValueError: Cannot convert column into bool:
java - Spark 2.0 按空值分组
致力于将一些查询从 Spark 1.5 迁移到 Spark 2.0
查询如下:
首先,我知道在 Spark 中,空值检查在 group by 中使用时不起作用,并且调用LENGTH()
值和空值检查可以正常工作。
运行上面的查询,我得到以下错误:
SQL Error: java.lang.IllegalArgumentException: Unrecognized type name: null\"
任何想法是什么问题?
hadoop - Hadoop YARN 上的 Spark - 缺少执行程序
我有一个由 3 台运行 Hadoop 和 Spark-1.5.2 的 macOS 机器组成的集群(尽管使用 Spark-2.0.0 存在同样的问题)。使用“纱线”作为 Spark 主 URL,我遇到了一个奇怪的问题,即任务仅分配给 3 台机器中的 2 台。
根据 Hadoop 仪表板(主服务器上的端口 8088),很明显所有 3 个节点都是集群的一部分。但是,我运行的任何 Spark 作业都只使用 2 个执行器。
例如,这里是长时间运行 JavaWordCount 示例的“Executors”选项卡: “batservers”是主服务器。应该有一个额外的奴隶,“batservers2”,但它只是不存在。
为什么会这样?
请注意,我的 YARN 或 Spark(或者,就此而言,HDFS)配置都没有异常,除了为 YARN 资源和节点管理器提供额外内存的规定。
python - 在 spark 1.5.0、python 2.6 中定义字典时出错
我正在使用 Python 2.6.6 运行 Cloudera Spark 1.5.0
我已经定义了 3 个这样的函数
从其他功能,我这样打电话
我收到这样的错误
我的语法有什么问题。在databricks环境中运行良好
apache-spark - 如何用点重命名列?
我使用 Spark 1.5。
我正在努力处理名称中包含点的列(例如 param.xy)。我首先遇到了选择它们的问题,但后来我读到我需要使用`字符(`param.xy`)。
现在我在尝试重命名列时遇到问题。我正在使用类似的方法,但似乎它不起作用:
所以我想检查一下——这真的是一个错误,还是我做错了什么?
scala - 在 Spark 中读取非空的多个文件
我曾经sc.textFile()
在 Spark 中从 S3 读取多个文件。但是,输入 S3 路径也有一些空文件,它们会给出 NullPointerException。有没有办法可以忽略这些文件?
编辑:添加堆栈跟踪
scala - 如何在应用 agg 函数之前将十进制值限制为 2 位?
我正在从堆栈溢出帖子之一中遵循此解决方案,我唯一的要求是如何在应用df.agg(sum())
函数之前将要求和的值限制为小数点后 2 位?
例如:我有如下值, sum 函数将其相加,
但是我希望将值四舍五入到小数点后的 2 位,例如
在总结之前。我该怎么做?我找不到任何像 function 这样sum().round
的子函数sum
。
注意:我使用的是 Spark 1.5.1 版本。
left-join - Spark SQL 1.5.2:左不包括连接
给定 dataframesdf_a
和df_b
,我怎样才能获得与 left 不包括 join 相同的结果:
我试过了:
我从上面得到一个例外: