问题标签 [apache-spark]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

73609 问题

0 投票

1 回答

19329 浏览

python - MAP (PySpark) 返回的元组列表（或迭代器）

我有一个映射器方法：

实际上，我需要的与普通的字数示例相差不远。我已经有了工作脚本，但前提是映射器方法如下所示：

这是它的调用的样子：

我花了 2 个小时尝试编写支持 mapper 中的生成器的代码。但不能那样做。我什至同意只返回一个列表：

在这里：https : //groups.google.com/forum/#!searchin/spark-users/flatmap $20multiple/spark-users/1WqVhRBaJsU/-D5QRbenlUgJ 我发现我应该使用flatMap，但它没有成功- 然后我的减速器开始获取输入，例如 (key1, value1, key2, value2, value3, ...) - 但它应该是 [(key1, value1), (key2, value2, value3)...]。换句话说，reducer 开始只取单件，不知道它是一个值还是一个键，如果是值 - 它属于哪个键。

那么如何使用返回迭代器或列表的映射器呢？

谢谢！

python apache-spark

2014-01-13T16:33:30.927

0 投票

1 回答

353 浏览

apache-spark - 当数据大小大于内存时，PySpark 是否提供优势？

在处理太大而无法完全加载到内存中的数据时，PySpark 是否提供任何优势？我正在尝试将此（和其他功能）与基于 IPy Parallel 的方法进行比较。

apache-spark

2014-01-13T21:59:16.280

0 投票

2 回答

7223 浏览

java-native-interface - 如何在火花中使用jni？

我想用 jni 在 spark 中调用我的 c++ lib。当我运行我的程序时，它显示 java.lang.UnsatisfiedLinkError: no hq_Image_Process in java.library.path ，所以显然程序找不到我的 hq_Image_Process.so 。

在 hadoop 中，-files 可以像这样将 xxx.so 文件分发给从属服务器：

有什么方法可以像 spark 中的 hadoop 一样调用我的 hq_Image_Process.so 吗？我将不胜感激任何帮助。

java-native-interface apache-spark java.library.path

2014-01-14T05:18:09.243

0 投票

13 回答

334441 浏览

out-of-memory - Spark java.lang.OutOfMemoryError：Java 堆空间

我的集群：1 个主节点，11 个从节点，每个节点有 6 GB 内存。

我的设置：

这是问题所在：

首先，我从 HDFS 读取一些数据（2.19 GB）到 RDD：

其次，在这个 RDD 上做一些事情：

最后，输出到 HDFS：

当我运行我的程序时，它显示：

任务太多？

PS：当输入数据约为 225 MB 时，一切正常。

我怎么解决这个问题？

out-of-memory apache-spark

2014-01-15T13:30:50.817

0 投票

1 回答

723 浏览

sbt - 更改 SBT 中特定代码段的 libraryDependencies？

我正在使用 SBT 构建一个 Spark 项目。

当我包含libraryDependencies时，程序的一部分将起作用，另一部分将抛出异常（因为在中指定了错误的版本libraryDependencies）。当我删除libraryDependencies它时，情况正好相反。

有没有办法libraryDependencies在编译或运行时动态更改（更改版本）？

与此类似（伪代码）：

这可以通过确定范围来完成吗？

sbt apache-spark

2014-01-15T14:13:25.033

0 投票

1 回答

570 浏览

maven - 通过 Shark API 查询不起作用

我正在尝试通过 Shark Java API 从集群上的 Hive 表中进行查询（简单的选择）。

但是我收到此错误消息：

随后出现此错误：

似乎这是 Guava 依赖项的问题，但我就是不知道是什么问题。

我正在使用 Spark-0.8.0、Shark-0.8.0、Hive-0.9.0 和 Hadoop-4.5.0。

我的 .pom 文件中唯一需要 Guava 的依赖项是：

有谁知道如何解决这个问题？

谢谢。

maven hadoop guava apache-spark shark-sql

2014-01-15T15:46:02.770

0 投票

2 回答

3195 浏览

amazon-web-services - 为什么 spark-ec2 失败并出现错误：找不到任何现有集群？

我最近下载了 Spark，我正在尝试通过 Spark-ec2 访问我的第一个集群。我使用了以下命令：

并且启动似乎运行没有错误。但是，当我运行时：

它返回：

我找不到有关此错误的任何文档。任何有关如何进行的帮助将不胜感激。

启动日志（为了清楚起见，我再次清理了 Spark_1 与 Spark）：

amazon-web-services amazon-ec2 apache-spark

2014-01-16T19:56:37.963

0 投票

4 回答

149909 浏览

performance - Apache Spark：地图与地图分区？

RDD map和mapPartitions方法有什么区别？并且flatMap表现得像map还是像mapPartitions？谢谢。

（编辑）即两者之间有什么区别（在语义上或在执行方面）

和：

performance scala apache-spark rdd

2014-01-17T11:41:12.470

0 投票

1 回答

3107 浏览

java - 如何使用 Java 有效地读取 Hadoop (HDFS) 文件中的第一行？

我的 Hadoop 集群上有一个大的 CSV 文件。文件的第一行是“标题”行，由字段名称组成。我想在这个标题行上做一个操作，但我不想处理整个文件。另外，我的程序是用 Java 编写的并使用 Spark。

什么是仅读取 Hadoop 集群上大型 CSV 文件的第一行的有效方法？

java csv hadoop apache-spark

2014-01-17T14:52:55.593

0 投票

2 回答

10219 浏览

scala - Apache Spark 项目的“./sbt/sbt 程序集”错误“不是有效的命令：程序集”

我在 Ubuntu 13.04 上安装 Apache Spark 时遇到问题。我使用 spark-0.8.1-incubating，两者都./sbt/sbt update工作./sbt/sbt compile正常。但是，当我这样做时，./sbt/sbt assembly我收到以下错误：

我用谷歌搜索了与此相关的东西，但找不到任何有用的东西。任何指导将不胜感激。

scala sbt apache-spark

2014-01-20T22:41:43.177

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark]

Reference