问题标签 [apache-spark]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

73609 问题

0 投票

9 回答

22105 浏览

scala - How to prevent java.lang.OutOfMemoryError: PermGen space at Scala compilation?

I have noticed a strange behavior of my scala compiler. It occasionally throws an OutOfMemoryError when compiling a class. Here's the error message:

It only happens once in a while and the error is usually not thrown on the subsequent compile run. I use Scala 2.9.0 and compile via SBT.

Does anybody have a clue as to what might be the cause for this error? Thanks in advance for your insights.

2011-11-30T18:41:01.220

0 投票

2 回答

6940 浏览

scala - 调用 distinct 和 map 一起在 spark 库中抛出 NPE

我不确定这是否是一个错误，所以如果你做这样的事情

您将获得一个 Java NPE。但是，如果您collect立即执行distinct，一切都会好起来的。

我正在使用火花0.6.1。

scala nullpointerexception apache-spark

2012-12-07T20:03:11.193

0 投票

1 回答

431 浏览

scala - Spark如何实现交互式内存缓存？

我想知道一个程序是否结束，用于该程序的内存被 GC 释放。

当我在交互式 Scala 解释器中时，如何在 Spark 中缓存数据？

这是否意味着一次翻译在一个过程中？

但更多时候，我使用终端来运行代码，而不是在解释器本身，在这种情况下，我怎样才能实现 In-Memory？

scala jvm mapreduce apache-spark

2012-12-24T03:45:20.643

0 投票

1 回答

1121 浏览

scala - 查询表时，shark/spark 抛出 NPE

Shark/spark wiki 的开发部分非常简短，因此我尝试编写代码以编程方式查询表。这里是 ...

我可以创建表 src 并将数据加载到 src 中，但是最后一个查询抛出 NPE 并失败，这是输出...

但是，我可以通过在 bin/shark-withinfo 调用的 shell 中输入 select * from src 来查询 src 表

您可能会问我如何在由“bin/shark-shell”触发的 shell 中尝试该 sql。好吧，我无法进入那个外壳。这是我遇到的错误...

https://groups.google.com/forum/?fromgroups=#!topic/shark-users/glZzrUfabGc

[编辑 1]：这个 NPE 似乎是由 SharkENV.sc 导致的，所以我添加了

在执行任何 sql2console 操作之前。然后它抱怨 scala.tools.nsc 的 ClassNotFoundException，所以我手动将 scala-compiler 放在类路径中。之后，代码又抱怨了另一个 ClassNotFoundException，我不知道如何修复它，因为我确实将鲨鱼罐放在了类路径中。

[编辑 2]：好的，我想出了另一个代码，它可以通过完全按照鲨鱼的源代码来实现我想要的，如何初始化交互式 repl。

这很丑陋，但至少它有效。欢迎任何关于如何编写更健壮的代码的评论！

对于希望以编程方式对 Shark 进行操作的人，请注意所有 hive 和 Shark jar 都必须在您的 CLASSPATH 中，并且 scala 编译器也必须在您的类路径中。另一个重要的事情是 hadoop 的 conf 也应该在类路径中。

scala nullpointerexception classnotfoundexception apache-spark shark-sql

2013-01-06T22:53:30.910

0 投票

1 回答

1831 浏览

scala - 我应该如何编译这个火花示例？

我是 spark 集群的新手，实际上我正在运行 spark 网站上给出的示例。

当我使用 sbt package 命令编译它时，它给了我以下错误：

感谢您在这方面的任何帮助。

scala apache-spark

2013-02-01T04:39:48.897

0 投票

3 回答

9401 浏览

scala - 使用 spark 访问 HDFS 失败

我正在使用 Cloudera 4.2.0 和 Spark。

我只是想试试 Spark 给出的一些例子。

编译没问题，但是总有一些运行时问题：

我在谷歌上搜索过，不知道 Spark 和 HDFS 的这种异常。

val file = sc.textFile("hdfs://n1.example.com/user/cloudera/data/navi_test.csv")是问题发生的地方。

我得到了这个警告。也许我应该在 CLASS_PATH 中添加一些 hadoop 路径。

随时提供任何线索。=)

谢谢你们。

任豪

scala apache-spark hdfs cloudera

2013-04-04T10:10:10.573

0 投票

1 回答

49621 浏览

java - Spark 支持 gzip 格式吗？

对于大数据项目，我计划使用spark，它具有一些不错的功能，例如用于重复工作负载的内存计算。它可以在本地文件或 HDFS 之上运行。

但是，在官方文档中，我找不到任何关于如何处理 gzip 文件的提示。在实践中，处理 .gz 文件而不是解压缩文件可能非常有效。

有没有办法手动实现 gzip 文件的读取，或者在读取 .gz 文件时已经自动完成解压缩？

java scala mapreduce gzip apache-spark

2013-04-30T14:30:00.520

0 投票

2 回答

15876 浏览

scala - 火花流文件流

我正在使用火花流进行编程，但在使用 scala 时遇到了一些问题。我正在尝试使用函数 StreamingContext.fileStream

这个函数的定义是这样的：

创建一个输入流，用于监视与 Hadoop 兼容的文件系统中的新文件，并使用给定的键值类型和输入格式读取它们。以 . 开头的文件名被忽略。K 读取 HDFS 文件的键类型 V 读取 HDFS 文件的值类型 F 读取 HDFS 文件目录的输入格式用于监视新文件的 HDFS 目录

我不知道如何传递 Key 和 Value 的类型。我在火花流中的代码：

编写hadoop文件的Java代码：

}

scala streaming apache-spark

2013-05-15T09:00:29.583

0 投票

1 回答

5405 浏览

apache-spark - 比较内存集群计算系统

我正在研究 Spark（伯克利）集群计算系统。在我的研究中，我了解了其他一些内存系统，如 Redis、Memcachedb 等。如果有人能给我比较 SPARK 和 REDIS（以及 MEMCACHEDB），那就太好了。在哪些情况下，Spark 比这些其他内存系统更有优势？

apache-spark redis apache-storm memcachedb

2013-05-22T06:50:47.893

0 投票

1 回答

612 浏览

amazon-ec2 - EC2 上的 Spark 无法利用所有可用的内核

我在通过spark-ec2.sh脚本设置的 EC2 集群上运行Spark 。我启动的 5 个从属实例共有 40 个核心，但每个实例无法利用所有核心。

从从属日志中，我可以看到从属似乎一个接一个地执行任务。我在从属实例上运行 top，cpu 大约是 100% 而不是 800%。

我打开了 spark.mesos.coarse 模式。并且数据被分成40个块。当我在本地以独立模式运行 Spark 时，它可以使用 8 个内核。

我能做些什么来让 Spark 从站利用所有可用的内核吗？

amazon-ec2 mapreduce apache-spark

2013-05-25T11:36:22.237

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark]

Reference