问题标签 [apache-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - MAP (PySpark) 返回的元组列表(或迭代器)
我有一个映射器方法:
实际上,我需要的与普通的字数示例相差不远。我已经有了工作脚本,但前提是映射器方法如下所示:
这是它的调用的样子:
我花了 2 个小时尝试编写支持 mapper 中的生成器的代码。但不能那样做。我什至同意只返回一个列表:
在这里:https : //groups.google.com/forum/#!searchin/spark-users/flatmap $20multiple/spark-users/1WqVhRBaJsU/-D5QRbenlUgJ 我发现我应该使用flatMap,但它没有成功- 然后我的减速器开始获取输入,例如 (key1, value1, key2, value2, value3, ...) - 但它应该是 [(key1, value1), (key2, value2, value3)...]。换句话说,reducer 开始只取单件,不知道它是一个值还是一个键,如果是值 - 它属于哪个键。
那么如何使用返回迭代器或列表的映射器呢?
谢谢!
apache-spark - 当数据大小大于内存时,PySpark 是否提供优势?
在处理太大而无法完全加载到内存中的数据时,PySpark 是否提供任何优势?我正在尝试将此(和其他功能)与基于 IPy Parallel 的方法进行比较。
java-native-interface - 如何在火花中使用jni?
我想用 jni 在 spark 中调用我的 c++ lib。当我运行我的程序时,它显示 java.lang.UnsatisfiedLinkError: no hq_Image_Process in java.library.path ,所以显然程序找不到我的 hq_Image_Process.so 。
在 hadoop 中,-files 可以像这样将 xxx.so 文件分发给从属服务器:
有什么方法可以像 spark 中的 hadoop 一样调用我的 hq_Image_Process.so 吗?我将不胜感激任何帮助。
out-of-memory - Spark java.lang.OutOfMemoryError:Java 堆空间
我的集群:1 个主节点,11 个从节点,每个节点有 6 GB 内存。
我的设置:
这是问题所在:
首先,我从 HDFS 读取一些数据(2.19 GB)到 RDD:
其次,在这个 RDD 上做一些事情:
最后,输出到 HDFS:
当我运行我的程序时,它显示:
任务太多?
PS:当输入数据约为 225 MB 时,一切正常。
我怎么解决这个问题?
sbt - 更改 SBT 中特定代码段的 libraryDependencies?
我正在使用 SBT 构建一个 Spark 项目。
当我包含libraryDependencies时,程序的一部分将起作用,另一部分将抛出异常(因为在 中指定了错误的版本libraryDependencies
)。当我删除libraryDependencies
它时,情况正好相反。
有没有办法libraryDependencies
在编译或运行时动态更改(更改版本)?
与此类似(伪代码):
这可以通过确定范围来完成吗?
maven - 通过 Shark API 查询不起作用
我正在尝试通过 Shark Java API 从集群上的 Hive 表中进行查询(简单的选择)。
但是我收到此错误消息:
随后出现此错误:
似乎这是 Guava 依赖项的问题,但我就是不知道是什么问题。
我正在使用 Spark-0.8.0、Shark-0.8.0、Hive-0.9.0 和 Hadoop-4.5.0。
我的 .pom 文件中唯一需要 Guava 的依赖项是:
有谁知道如何解决这个问题?
谢谢。
amazon-web-services - 为什么 spark-ec2 失败并出现错误:找不到任何现有集群?
我最近下载了 Spark,我正在尝试通过 Spark-ec2 访问我的第一个集群。我使用了以下命令:
并且启动似乎运行没有错误。但是,当我运行时:
它返回:
我找不到有关此错误的任何文档。任何有关如何进行的帮助将不胜感激。
启动日志(为了清楚起见,我再次清理了 Spark_1 与 Spark):
java - 如何使用 Java 有效地读取 Hadoop (HDFS) 文件中的第一行?
我的 Hadoop 集群上有一个大的 CSV 文件。文件的第一行是“标题”行,由字段名称组成。我想在这个标题行上做一个操作,但我不想处理整个文件。另外,我的程序是用 Java 编写的并使用 Spark。
什么是仅读取 Hadoop 集群上大型 CSV 文件的第一行的有效方法?
scala - Apache Spark 项目的“./sbt/sbt 程序集”错误“不是有效的命令:程序集”
我在 Ubuntu 13.04 上安装 Apache Spark 时遇到问题。我使用 spark-0.8.1-incubating,两者都./sbt/sbt update
工作./sbt/sbt compile
正常。但是,当我这样做时,./sbt/sbt assembly
我收到以下错误:
我用谷歌搜索了与此相关的东西,但找不到任何有用的东西。任何指导将不胜感激。