问题标签 [apache-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
19329 浏览

python - MAP (PySpark) 返回的元组列表(或迭代器)

我有一个映射器方法:

实际上,我需要的与普通的字数示例相差不远。我已经有了工作脚本,但前提是映射器方法如下所示:

这是它的调用的样子:

我花了 2 个小时尝试编写支持 mapper 中的生成器的代码。但不能那样做。我什至同意只返回一个列表:

在这里:https : //groups.google.com/forum/#!searchin/spark-users/flatmap $20multiple/spark-users/1WqVhRBaJsU/-D5QRbenlUgJ 我发现我应该使用flatMap,但它没有成功- 然后我的减速器开始获取输入,例如 (key1, value1, key2, value2, value3, ...) - 但它应该是 [(key1, value1), (key2, value2, value3)...]。换句话说,reducer 开始只取单件,不知道它是一个值还是一个键,如果是值 - 它属于哪个键。

那么如何使用返回迭代器或列表的映射器呢?

谢谢!

0 投票
1 回答
353 浏览

apache-spark - 当数据大小大于内存时,PySpark 是否提供优势?

在处理太大而无法完全加载到内存中的数据时,PySpark 是否提供任何优势?我正在尝试将此(和其他功能)与基于 IPy Parallel 的方法进行比较。

0 投票
2 回答
7223 浏览

java-native-interface - 如何在火花中使用jni?

我想用 jni 在 spark 中调用我的 c++ lib。当我运行我的程序时,它显示 java.lang.UnsatisfiedLinkError: no hq_Image_Process in java.library.path ,所以显然程序找不到我的 hq_Image_Process.so 。

在 hadoop 中,-files 可以像这样将 xxx.so 文件分发给从属服务器:

有什么方法可以像 spark 中的 hadoop 一样调用我的 hq_Image_Process.so 吗?我将不胜感激任何帮助。

0 投票
13 回答
334441 浏览

out-of-memory - Spark java.lang.OutOfMemoryError:Java 堆空间

我的集群:1 个主节点,11 个从节点,每个节点有 6 GB 内存。

我的设置:

这是问题所在:

首先,我从 HDFS 读取一些数据(2.19 GB)到 RDD:

其次,在这个 RDD 上做一些事情:

最后,输出到 HDFS:

当我运行我的程序时,它显示:

任务太多?

PS:当输入数据约为 225 MB 时,一切正常。

我怎么解决这个问题?

0 投票
1 回答
723 浏览

sbt - 更改 SBT 中特定代码段的 libraryDependencies?

我正在使用 SBT 构建一个 Spark 项目。

当我包含libraryDependencies时,程序的一部分将起作用,另一部分将抛出异常(因为在 中指定了错误的版本libraryDependencies)。当我删除libraryDependencies它时,情况正好相反。

有没有办法libraryDependencies在编译或运行时动态更改(更改版本)?

与此类似(伪代码):

这可以通过确定范围来完成吗?

0 投票
1 回答
570 浏览

maven - 通过 Shark API 查询不起作用

我正在尝试通过 Shark Java API 从集群上的 Hive 表中进行查询(简单的选择)。

但是我收到此错误消息:

随后出现此错误:

似乎这是 Guava 依赖项的问题,但我就是不知道是什么问题。

我正在使用 Spark-0.8.0、Shark-0.8.0、Hive-0.9.0 和 Hadoop-4.5.0。

我的 .pom 文件中唯一需要 Guava 的依赖项是:

有谁知道如何解决这个问题?

谢谢。

0 投票
2 回答
3195 浏览

amazon-web-services - 为什么 spark-ec2 失败并出现错误:找不到任何现有集群?

我最近下载了 Spark,我正在尝试通过 Spark-ec2 访问我的第一个集群。我使用了以下命令:

并且启动似乎运行没有错误。但是,当我运行时:

它返回:

我找不到有关此错误的任何文档。任何有关如何进行的帮助将不胜感激。

启动日志(为了清楚起见,我再次清理了 Spark_1 与 Spark):

0 投票
4 回答
149909 浏览

performance - Apache Spark:地图与地图分区?

RDD mapmapPartitions方法有什么区别?并且flatMap表现得像map还是像mapPartitions?谢谢。

(编辑)即两者之间有什么区别(在语义上或在执行方面)

和:

0 投票
1 回答
3107 浏览

java - 如何使用 Java 有效地读取 Hadoop (HDFS) 文件中的第一行?

我的 Hadoop 集群上有一个大的 CSV 文件。文件的第一行是“标题”行,由字段名称组成。我想在这个标题行上做一个操作,但我不想处理整个文件。另外,我的程序是用 Java 编写的并使用 Spark。

什么是仅读取 Hadoop 集群上大型 CSV 文件的第一行的有效方法?

0 投票
2 回答
10219 浏览

scala - Apache Spark 项目的“./sbt/sbt 程序集”错误“不是有效的命令:程序集”

我在 Ubuntu 13.04 上安装 Apache Spark 时遇到问题。我使用 spark-0.8.1-incubating,两者都./sbt/sbt update工作./sbt/sbt compile正常。但是,当我这样做时,./sbt/sbt assembly我收到以下错误:

我用谷歌搜索了与此相关的东西,但找不到任何有用的东西。任何指导将不胜感激。