“apache-spark”的相关标签问题

0 投票

2 回答

1508 浏览

python - 是否有任何 python 或 scala 工具来连接 spark/shark

我想使用 python 或 scala 连接鲨鱼服务器。但我没有找到任何工具来做到这一点。是否有任何库（python 或 scala/java）。谢谢先进。

2013-10-12T08:10:46.053

0 投票

2 回答

1402 浏览

scala - Spark：单个流水线 scala 命令比单独的命令更好？

我正在使用带有 scala 的 Spark。我想知道单行命令是否比单独的命令更好？如果有的话有什么好处？它是否在速度方面获得了更高的效率？为什么？

例如

反对

scala apache-spark

2013-10-13T01:12:23.417

0 投票

2 回答

360 浏览

scala - Scala：对象的范围

我正在运行一个用 Scala 2.9.3 编写的 spark 应用程序。下面是network创建节点树的函数。每个节点都有一组唯一的邻居，它们是该特定节点的子节点。我面临的问题是对象是循环current内的不同对象（从其不同的地址可以看出）。for如何防止这种情况并让for循环在我在外面声明的同一个对象上执行？

下面是代码的输出。检查current由 Current1、Current2 和 Current3 表示的 3 个位置的值。我们观察到 Current1 == Current3

附加信息：findNeighbor返回一个包含 node 的邻居元组的 RDD userID。 tree.search函数检查树以查找树中是否n已经存在。仅当节点不存在于树中时才将其添加为子节点。所有功能都按预期工作。

scala object scope apache-spark

2013-10-13T21:38:22.027

0 投票

1 回答

596 浏览

json - Scala 中的 JSON 库和计算分布

我想在 Scala 中计算非常大的 JSON 文件（每个大约 400 MB）。

我的用例是批处理。我可以同时接收几个非常大的文件（最多 20 GB，然后剪切以进行处理），我真的很想将它们作为一个队列快速处理（但这不是本文的主题！）。所以它实际上是关于分布式架构和性能问题。

我的 JSON 文件格式是一个对象数组，每个 JSON 对象至少包含 20 个字段。我的流程由两个主要步骤组成。第一个是 JSON 对象到 Scala 对象的映射。第二步是我对 Scala 对象数据进行的一些转换。

为了避免将所有文件加载到内存中，我想要一个可以进行增量解析的解析库。有这么多库（Play-JSON、Jerkson、Lift-JSON、内置的 scala.util.parsing.json.JSON、Gson），我不知道该采用哪一个，并要求最小化依赖关系。

您对我可以用于大容量解析并具有良好性能的库有任何想法吗？

另外，我正在寻找一种方法来并行处理 JSON 文件的映射和对字段进行的转换（在几个节点之间）。

你认为我可以使用 Apache Spark 来做到这一点吗？还是有其他方法来加速/分布映射/转换？

谢谢你的帮助。

最好的问候，托马斯

json scala distributed apache-spark

2013-10-13T22:16:58.197

0 投票

1 回答

2197 浏览

java - 在 Spark 中排序时出现 NotSerializableException

我正在尝试编写一个简单的流处理 Spark 作业，它将获取一个消息列表（JSON 格式），每个消息都属于一个用户，计算每个用户的消息并打印前十个用户。

但是，当我定义 Comparator> 对减少的计数进行排序时，整个事情都会失败，并抛出java.io.NotSerializableException 。

我对 Spark 的 Maven 依赖项：

我正在使用的 Java 代码：

生成的堆栈跟踪：

我浏览了 Spark API 文档，但找不到任何可以为我指明正确方向的内容。我做错了什么还是这是 Spark 中的错误？任何帮助将不胜感激。

java sorting apache-spark notserializableexception

2013-10-17T17:13:32.520

0 投票

2 回答

3460 浏览

scala - 添加一些依赖项后，sbt 组装任务运行缓慢

我对 scala 中的部署有点陌生，我配置了sbt-assembly插件，一切都运行良好。

几天前，我添加了 hadoop、spark 和其他一些依赖项，然后assembly任务变得非常慢（8 到 10 分钟），在此之前，它是 <30s。大部分时间用于生成程序集 jar（jar 需要几秒钟才能增长到 1MB）。

我观察到有很多合并冲突，这是通过first策略解决的。这会影响组装速度吗？

我已经使用了 sbt 的 -Xmx 选项（添加 -Xmx4096m），但它没有帮助。

我正在使用sbt12.4 和sbt-assembly. 任何优化此任务的建议或指示？

scala deployment sbt apache-spark sbt-assembly

2013-10-23T13:48:41.833

0 投票

1 回答

745 浏览

java - 在 CentOS 上安装 Spark 时出现 Java 编译错误

我正在尝试在 CentOS 上安装 Spark。使用命令构建 sparksbt/sbt assembly时，会出现以下错误。

我机器上安装的java版本是1.7.0_45。
早些时候我使用了 jdk 1.6.0_35，它给出了相同的错误集。我还尝试了 java 1.4，它给出了不同类型的错误。我应该使用哪个版本的 java？还是其他问题？

java apache-spark

2013-10-24T04:47:40.950

0 投票

1 回答

1335 浏览

scala - 使用 Cassandra 的 Spark：无法注册 spark.kryo.registrator

目前，当我尝试在独立模式下使用 Cassandra 运行 Spark 时遇到一些问题。

最初，我在 SparkContext 中使用参数 mater="local[4]" 成功运行。

然后，我尝试进入独立模式。我使用的是：

Ubuntu：12.04 Cassandra：1.2.11 Spark：0.8.0 Scala：2.9.3 JDK：Oracle 1.6.0_35 Kryo：2.21

起初，我收到“未读块”错误。作为其他主题的建议，我更改为使用 Kryo 序列化程序并添加 Twitter Chill。然后，我在控制台中收到“注册 spark.kryo.registrator 失败”和如下异常：

之前也有人在spark中遇到过EOFException，答案是没有正确注册registrator。我按照 Spark 指南注册了 Registrator。注册人如下：

我也像指南一样设置属性。

谁能给我一些提示我做错了什么？谢谢。

scala cassandra apache-spark kryo

2013-10-28T07:40:03.480

0 投票

2 回答

6091 浏览

scala - 如何使用 scala 运行 Spark 流的 Twitter 流行标签？

我是 Spark 的新手，所以请指导。

有很多与使用 Scala 的 Spark 流相关的示例。

您可以从https://github.com/apache/incubator-spark/tree/master/examples/src/main/scala/org/apache/spark/streaming/examples查看。

我想运行 TwitterPopularTags.scala。

我无法为此示例设置 twitter 登录详细信息。

http://spark.incubator.apache.org/docs/latest/streaming-programming-guide.html#linking-with-spark-streaming

我成功运行了网络计数示例。

但是当我执行时
./run-example org.apache.spark.streaming.examples.TwitterPopularTags local[2] ，它会向我显示身份验证失败问题......

我在 TwitterPopularTags.scala 中初始化字符串上下文之前设置了 twitter 登录详细信息，例如

请指导。

scala twitter streaming apache-spark

2013-10-30T09:52:53.730

0 投票

2 回答

743 浏览

scala - Scala代码未执行

我正在尝试在 Spark 上执行以下 scala 代码，但由于某种原因，没有调用函数选择性

选择函数定义如下

println 语句未执行。此外，该功能不返回任何东西。sc 是火花上下文对象

scala apache-spark

2013-10-31T01:26:17.357

问题标签 [apache-spark]

Reference