问题标签 [apache-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - How to prevent java.lang.OutOfMemoryError: PermGen space at Scala compilation?
I have noticed a strange behavior of my scala compiler. It occasionally throws an OutOfMemoryError when compiling a class. Here's the error message:
It only happens once in a while and the error is usually not thrown on the subsequent compile run. I use Scala 2.9.0 and compile via SBT.
Does anybody have a clue as to what might be the cause for this error? Thanks in advance for your insights.
scala - Spark如何实现交互式内存缓存?
我想知道一个程序是否结束,用于该程序的内存被 GC 释放。
当我在交互式 Scala 解释器中时,如何在 Spark 中缓存数据?
这是否意味着一次翻译在一个过程中?
但更多时候,我使用终端来运行代码,而不是在解释器本身,在这种情况下,我怎样才能实现 In-Memory?
scala - 查询表时,shark/spark 抛出 NPE
Shark/spark wiki 的开发部分非常简短,因此我尝试编写代码以编程方式查询表。这里是 ...
我可以创建表 src 并将数据加载到 src 中,但是最后一个查询抛出 NPE 并失败,这是输出...
但是,我可以通过在 bin/shark-withinfo 调用的 shell 中输入 select * from src 来查询 src 表
您可能会问我如何在由“bin/shark-shell”触发的 shell 中尝试该 sql。好吧,我无法进入那个外壳。这是我遇到的错误...
https://groups.google.com/forum/?fromgroups=#!topic/shark-users/glZzrUfabGc
[编辑 1]:这个 NPE 似乎是由 SharkENV.sc 导致的,所以我添加了
在执行任何 sql2console 操作之前。然后它抱怨 scala.tools.nsc 的 ClassNotFoundException,所以我手动将 scala-compiler 放在类路径中。之后,代码又抱怨了另一个 ClassNotFoundException,我不知道如何修复它,因为我确实将鲨鱼罐放在了类路径中。
[编辑 2]:好的,我想出了另一个代码,它可以通过完全按照鲨鱼的源代码来实现我想要的,如何初始化交互式 repl。
这很丑陋,但至少它有效。欢迎任何关于如何编写更健壮的代码的评论!
对于希望以编程方式对 Shark 进行操作的人,请注意所有 hive 和 Shark jar 都必须在您的 CLASSPATH 中,并且 scala 编译器也必须在您的类路径中。另一个重要的事情是 hadoop 的 conf 也应该在类路径中。
scala - 我应该如何编译这个火花示例?
我是 spark 集群的新手,实际上我正在运行 spark 网站上给出的示例。
当我使用 sbt package 命令编译它时,它给了我以下错误:
感谢您在这方面的任何帮助。
scala - 使用 spark 访问 HDFS 失败
我正在使用 Cloudera 4.2.0 和 Spark。
我只是想试试 Spark 给出的一些例子。
编译没问题,但是总有一些运行时问题:
我在谷歌上搜索过,不知道 Spark 和 HDFS 的这种异常。
val file = sc.textFile("hdfs://n1.example.com/user/cloudera/data/navi_test.csv")
是问题发生的地方。
我得到了这个警告。也许我应该在 CLASS_PATH 中添加一些 hadoop 路径。
随时提供任何线索。=)
谢谢你们。
任豪
java - Spark 支持 gzip 格式吗?
对于大数据项目,我计划使用spark,它具有一些不错的功能,例如用于重复工作负载的内存计算。它可以在本地文件或 HDFS 之上运行。
但是,在官方文档中,我找不到任何关于如何处理 gzip 文件的提示。在实践中,处理 .gz 文件而不是解压缩文件可能非常有效。
有没有办法手动实现 gzip 文件的读取,或者在读取 .gz 文件时已经自动完成解压缩?
scala - 火花流文件流
我正在使用火花流进行编程,但在使用 scala 时遇到了一些问题。我正在尝试使用函数 StreamingContext.fileStream
这个函数的定义是这样的:
创建一个输入流,用于监视与 Hadoop 兼容的文件系统中的新文件,并使用给定的键值类型和输入格式读取它们。以 . 开头的文件名 被忽略。K 读取 HDFS 文件的键类型 V 读取 HDFS 文件的值类型 F 读取 HDFS 文件目录的输入格式 用于监视新文件的 HDFS 目录
我不知道如何传递 Key 和 Value 的类型。我在火花流中的代码:
编写hadoop文件的Java代码:
}
apache-spark - 比较内存集群计算系统
我正在研究 Spark(伯克利)集群计算系统。在我的研究中,我了解了其他一些内存系统,如 Redis、Memcachedb 等。如果有人能给我比较 SPARK 和 REDIS(以及 MEMCACHEDB),那就太好了。在哪些情况下,Spark 比这些其他内存系统更有优势?
amazon-ec2 - EC2 上的 Spark 无法利用所有可用的内核
我在通过spark-ec2.sh脚本设置的 EC2 集群上运行Spark 。我启动的 5 个从属实例共有 40 个核心,但每个实例无法利用所有核心。
从从属日志中,我可以看到从属似乎一个接一个地执行任务。我在从属实例上运行 top,cpu 大约是 100% 而不是 800%。
我打开了 spark.mesos.coarse 模式。并且数据被分成40个块。当我在本地以独立模式运行 Spark 时,它可以使用 8 个内核。
我能做些什么来让 Spark 从站利用所有可用的内核吗?