问题标签 [apache-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
9 回答
22105 浏览

scala - How to prevent java.lang.OutOfMemoryError: PermGen space at Scala compilation?

I have noticed a strange behavior of my scala compiler. It occasionally throws an OutOfMemoryError when compiling a class. Here's the error message:

It only happens once in a while and the error is usually not thrown on the subsequent compile run. I use Scala 2.9.0 and compile via SBT.

Does anybody have a clue as to what might be the cause for this error? Thanks in advance for your insights.

0 投票
2 回答
6940 浏览

scala - 调用 distinct 和 map 一起在 spark 库中抛出 NPE

我不确定这是否是一个错误,所以如果你做这样的事情

您将获得一个 Java NPE。但是,如果您collect立即执行distinct,一切都会好起来的。

我正在使用火花0.6.1。

0 投票
1 回答
431 浏览

scala - Spark如何实现交互式内存缓存?

我想知道一个程序是否结束,用于该程序的内存被 GC 释放。

当我在交互式 Scala 解释器中时,如何在 Spark 中缓存数据?

这是否意味着一次翻译在一个过程中?

但更多时候,我使用终端来运行代码,而不是在解释器本身,在这种情况下,我怎样才能实现 In-Memory?

0 投票
1 回答
1121 浏览

scala - 查询表时,shark/spark 抛出 NPE

Shark/spark wiki 的开发部分非常简短,因此我尝试编写代码以编程方式查询表。这里是 ...

我可以创建表 src 并将数据加载到 src 中,但是最后一个查询抛出 NPE 并失败,这是输出...

但是,我可以通过在 bin/shark-withinfo 调用的 shell 中输入 select * from src 来查询 src 表

您可能会问我如何在由“bin/shark-shell”触发的 shell 中尝试该 sql。好吧,我无法进入那个外壳。这是我遇到的错误...

https://groups.google.com/forum/?fromgroups=#!topic/shark-users/glZzrUfabGc

[编辑 1]:这个 NPE 似乎是由 SharkENV.sc 导致的,所以我添加了

在执行任何 sql2console 操作之前。然后它抱怨 scala.tools.nsc 的 ClassNotFoundException,所以我手动将 scala-compiler 放在类路径中。之后,代码又抱怨了另一个 ClassNotFoundException,我不知道如何修复它,因为我确实将鲨鱼罐放在了类路径中。

[编辑 2]:好的,我想出了另一个代码,它可以通过完全按照鲨鱼的源代码来实现我想要的,如何初始化交互式 repl。

这很丑陋,但至少它有效。欢迎任何关于如何编写更健壮的代码的评论!

对于希望以编程方式对 Shark 进行操作的人,请注意所有 hive 和 Shark jar 都必须在您的 CLASSPATH 中,并且 scala 编译器也必须在您的类路径中。另一个重要的事情是 hadoop 的 conf 也应该在类路径中。

0 投票
1 回答
1831 浏览

scala - 我应该如何编译这个火花示例?

我是 spark 集群的新手,实际上我正在运行 spark 网站上给出的示例。

当我使用 sbt package 命令编译它时,它给了我以下错误:

感谢您在这方面的任何帮助。

0 投票
3 回答
9401 浏览

scala - 使用 spark 访问 HDFS 失败

我正在使用 Cloudera 4.2.0 和 Spark。

我只是想试试 Spark 给出的一些例子。

编译没问题,但是总有一些运行时问题:

我在谷歌上搜索过,不知道 Spark 和 HDFS 的这种异常。

val file = sc.textFile("hdfs://n1.example.com/user/cloudera/data/navi_test.csv")是问题发生的地方。

我得到了这个警告。也许我应该在 CLASS_PATH 中添加一些 hadoop 路径。

随时提供任何线索。=)

谢谢你们。

任豪

0 投票
1 回答
49621 浏览

java - Spark 支持 gzip 格式吗?

对于大数据项目,我计划使用spark,它具有一些不错的功能,例如用于重复工作负载的内存计算。它可以在本地文件或 HDFS 之上运行。

但是,在官方文档中,我找不到任何关于如何处理 gzip 文件的提示。在实践中,处理 .gz 文件而不是解压缩文件可能非常有效。

有没有办法手动实现 gzip 文件的读取,或者在读取 .gz 文件时已经自动完成解压缩?

0 投票
2 回答
15876 浏览

scala - 火花流文件流

我正在使用火花流进行编程,但在使用 scala 时遇到了一些问题。我正在尝试使用函数 StreamingContext.fileStream

这个函数的定义是这样的:

创建一个输入流,用于监视与 Hadoop 兼容的文件系统中的新文件,并使用给定的键值类型和输入格式读取它们。以 . 开头的文件名 被忽略。K 读取 HDFS 文件的键类型 V 读取 HDFS 文件的值类型 F 读取 HDFS 文件目录的输入格式 用于监视新文件的 HDFS 目录

我不知道如何传递 Key 和 Value 的类型。我在火花流中的代码:

编写hadoop文件的Java代码:

}

0 投票
1 回答
5405 浏览

apache-spark - 比较内存集群计算系统

我正在研究 Spark(伯克利)集群计算系统。在我的研究中,我了解了其他一些内存系统,如 Redis、Memcachedb 等。如果有人能给我比较 SPARK 和 REDIS(以及 MEMCACHEDB),那就太好了。在哪些情况下,Spark 比这些其他内存系统更有优势?

0 投票
1 回答
612 浏览

amazon-ec2 - EC2 上的 Spark 无法利用所有可用的内核

我在通过spark-ec2.sh脚本设置的 EC2 集群上运行Spark 。我启动的 5 个从属实例共有 40 个核心,但每个实例无法利用所有核心。

从从属日志中,我可以看到从属似乎一个接一个地执行任务。我在从属实例上运行 top,cpu 大约是 100% 而不是 800%。

我打开了 spark.mesos.coarse 模式。并且数据被分成40个块。当我在本地以独立模式运行 Spark 时,它可以使用 8 个内核。

我能做些什么来让 Spark 从站利用所有可用的内核吗?