问题标签 [apache-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1508 浏览

python - 是否有任何 python 或 scala 工具来连接 spark/shark

我想使用 python 或 scala 连接鲨鱼服务器。但我没有找到任何工具来做到这一点。是否有任何库(python 或 scala/java)。谢谢先进。

0 投票
2 回答
1402 浏览

scala - Spark:单个流水线 scala 命令比单独的命令更好?

我正在使用带有 scala 的 Spark。我想知道单行命令是否比单独的命令更好?如果有的话有什么好处?它是否在速度方面获得了更高的效率?为什么?

例如

反对

0 投票
2 回答
360 浏览

scala - Scala:对象的范围

我正在运行一个用 Scala 2.9.3 编写的 spark 应用程序。下面是network创建节点树的函数。每个节点都有一组唯一的邻居,它们是该特定节点的子节点。我面临的问题是对象是循环current内的不同对象(从其不同的地址可以看出) 。for如何防止这种情况并让for循环在我在外面声明的同一个对象上执行?

下面是代码的输出。检查current由 Current1、Current2 和 Current3 表示的 3 个位置的值。我们观察到 Current1 == Current3

附加信息:findNeighbor返回一个包含 node 的邻居元组的 RDD userIDtree.search函数检查树以查找树中是否n已经存在。仅当节点不存在于树中时才将其添加为子节点。所有功能都按预期工作。

0 投票
1 回答
596 浏览

json - Scala 中的 JSON 库和计算分布

我想在 Scala 中计算非常大的 JSON 文件(每个大约 400 MB)。

我的用例是批处理。我可以同时接收几个非常大的文件(最多 20 GB,然后剪切以进行处理),我真的很想将它们作为一个队列快速处理(但这不是本文的主题!)。所以它实际上是关于分布式架构和性能问题。

我的 JSON 文件格式是一个对象数组,每个 JSON 对象至少包含 20 个字段。我的流程由两个主要步骤组成。第一个是 JSON 对象到 Scala 对象的映射。第二步是我对 Scala 对象数据进行的一些转换。

为了避免将所有文件加载到内存中,我想要一个可以进行增量解析的解析库。有这么多库(Play-JSON、Jerkson、Lift-JSON、内置的 scala.util.parsing.json.JSON、Gson),我不知道该采用哪一个,并要求最小化依赖关系。

  • 您对我可以用于大容量解析并具有良好性能的库有任何想法吗?

另外,我正在寻找一种方法来并行处理 JSON 文件的映射和对字段进行的转换(在几个节点之间)。

  • 你认为我可以使用 Apache Spark 来做到这一点吗?还是有其他方法来加速/分布映射/转换?

谢谢你的帮助。

最好的问候,托马斯

0 投票
1 回答
2197 浏览

java - 在 Spark 中排序时出现 NotSerializableException

我正在尝试编写一个简单的流处理 Spark 作业,它将获取一个消息列表(JSON 格式),每个消息都属于一个用户,计算每个用户的消息并打印前十个用户。

但是,当我定义 Comparator> 对减少的计数进行排序时,整个事情都会失败,并抛出java.io.NotSerializableException 。

我对 Spark 的 Maven 依赖项:

我正在使用的 Java 代码:

生成的堆栈跟踪:

我浏览了 Spark API 文档,但找不到任何可以为我指明正确方向的内容。我做错了什么还是这是 Spark 中的错误?任何帮助将不胜感激。

0 投票
2 回答
3460 浏览

scala - 添加一些依赖项后,sbt 组装任务运行缓慢

我对 scala 中的部署有点陌生,我配置了sbt-assembly插件,一切都运行良好。

几天前,我添加了 hadoop、spark 和其他一些依赖项,然后assembly任务变得非常慢(8 到 10 分钟),在此之前,它是 <30s。大部分时间用于生成程序集 jar(jar 需要几秒钟才能增长到 1MB)。

我观察到有很多合并冲突,这是通过first策略解决的。这会影响组装速度吗?

我已经使用了 sbt 的 -Xmx 选项(添加 -Xmx4096m),但它没有帮助。

我正在使用sbt12.4 和sbt-assembly. 任何优化此任务的建议或指示?

0 投票
1 回答
745 浏览

java - 在 CentOS 上安装 Spark 时出现 Java 编译错误

我正在尝试在 CentOS 上安装 Spark。使用命令构建 sparksbt/sbt assembly时,会出现以下错误。

我机器上安装的java版本是1.7.0_45。
早些时候我使用了 jdk 1.6.0_35,它给出了相同的错误集。我还尝试了 java 1.4,它给出了不同类型的错误。我应该使用哪个版本的 java?还是其他问题?

0 投票
1 回答
1335 浏览

scala - 使用 Cassandra 的 Spark:无法注册 spark.kryo.registrator

目前,当我尝试在独立模式下使用 Cassandra 运行 Spark 时遇到一些问题。

最初,我在 SparkContext 中使用参数 mater="local[4]" 成功运行。

然后,我尝试进入独立模式。我使用的是:

Ubuntu:12.04 Cassandra:1.2.11 Spark:0.8.0 Scala:2.9.3 JDK:Oracle 1.6.0_35 Kryo:2.21

起初,我收到“未读块”错误。作为其他主题的建议,我更改为使用 Kryo 序列化程序并添加 Twitter Chill。然后,我在控制台中收到“注册 spark.kryo.registrator 失败”和如下异常:

之前也有人在spark中遇到过EOFException,答案是没有正确注册registrator。我按照 Spark 指南注册了 Registrator。注册人如下:

我也像指南一样设置属性。

谁能给我一些提示我做错了什么?谢谢。

0 投票
2 回答
6091 浏览

scala - 如何使用 scala 运行 Spark 流的 Twitter 流行标签?

我是 Spark 的新手,所以请指导。

有很多与使用 Scala 的 Spark 流相关的示例。

您可以从https://github.com/apache/incubator-spark/tree/master/examples/src/main/scala/org/apache/spark/streaming/examples查看。

我想运行 TwitterPopularTags.scala。

我无法为此示例设置 twitter 登录详细信息。

http://spark.incubator.apache.org/docs/latest/streaming-programming-guide.html#linking-with-spark-streaming

我成功运行了网络计数示例。

但是当我执行时
./run-example org.apache.spark.streaming.examples.TwitterPopularTags local[2] ,它会向我显示身份验证失败问题......

我在 TwitterPopularTags.scala 中初始化字符串上下文之前设置了 twitter 登录详细信息,例如

请指导。

0 投票
2 回答
743 浏览

scala - Scala代码未执行

我正在尝试在 Spark 上执行以下 scala 代码,但由于某种原因,没有调用函数选择性

选择函数定义如下

println 语句未执行。此外,该功能不返回任何东西。sc 是火花上下文对象