问题标签 [apache-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 是否有任何 python 或 scala 工具来连接 spark/shark
我想使用 python 或 scala 连接鲨鱼服务器。但我没有找到任何工具来做到这一点。是否有任何库(python 或 scala/java)。谢谢先进。
scala - Spark:单个流水线 scala 命令比单独的命令更好?
我正在使用带有 scala 的 Spark。我想知道单行命令是否比单独的命令更好?如果有的话有什么好处?它是否在速度方面获得了更高的效率?为什么?
例如
反对
scala - Scala:对象的范围
我正在运行一个用 Scala 2.9.3 编写的 spark 应用程序。下面是network
创建节点树的函数。每个节点都有一组唯一的邻居,它们是该特定节点的子节点。我面临的问题是对象是循环current
内的不同对象(从其不同的地址可以看出) 。for
如何防止这种情况并让for
循环在我在外面声明的同一个对象上执行?
下面是代码的输出。检查current
由 Current1、Current2 和 Current3 表示的 3 个位置的值。我们观察到 Current1 == Current3
附加信息:findNeighbor
返回一个包含 node 的邻居元组的 RDD userID
。
tree.search
函数检查树以查找树中是否n
已经存在。仅当节点不存在于树中时才将其添加为子节点。所有功能都按预期工作。
json - Scala 中的 JSON 库和计算分布
我想在 Scala 中计算非常大的 JSON 文件(每个大约 400 MB)。
我的用例是批处理。我可以同时接收几个非常大的文件(最多 20 GB,然后剪切以进行处理),我真的很想将它们作为一个队列快速处理(但这不是本文的主题!)。所以它实际上是关于分布式架构和性能问题。
我的 JSON 文件格式是一个对象数组,每个 JSON 对象至少包含 20 个字段。我的流程由两个主要步骤组成。第一个是 JSON 对象到 Scala 对象的映射。第二步是我对 Scala 对象数据进行的一些转换。
为了避免将所有文件加载到内存中,我想要一个可以进行增量解析的解析库。有这么多库(Play-JSON、Jerkson、Lift-JSON、内置的 scala.util.parsing.json.JSON、Gson),我不知道该采用哪一个,并要求最小化依赖关系。
- 您对我可以用于大容量解析并具有良好性能的库有任何想法吗?
另外,我正在寻找一种方法来并行处理 JSON 文件的映射和对字段进行的转换(在几个节点之间)。
- 你认为我可以使用 Apache Spark 来做到这一点吗?还是有其他方法来加速/分布映射/转换?
谢谢你的帮助。
最好的问候,托马斯
java - 在 Spark 中排序时出现 NotSerializableException
我正在尝试编写一个简单的流处理 Spark 作业,它将获取一个消息列表(JSON 格式),每个消息都属于一个用户,计算每个用户的消息并打印前十个用户。
但是,当我定义 Comparator> 对减少的计数进行排序时,整个事情都会失败,并抛出java.io.NotSerializableException 。
我对 Spark 的 Maven 依赖项:
我正在使用的 Java 代码:
生成的堆栈跟踪:
我浏览了 Spark API 文档,但找不到任何可以为我指明正确方向的内容。我做错了什么还是这是 Spark 中的错误?任何帮助将不胜感激。
scala - 添加一些依赖项后,sbt 组装任务运行缓慢
我对 scala 中的部署有点陌生,我配置了sbt-assembly
插件,一切都运行良好。
几天前,我添加了 hadoop、spark 和其他一些依赖项,然后assembly
任务变得非常慢(8 到 10 分钟),在此之前,它是 <30s。大部分时间用于生成程序集 jar(jar 需要几秒钟才能增长到 1MB)。
我观察到有很多合并冲突,这是通过first
策略解决的。这会影响组装速度吗?
我已经使用了 sbt 的 -Xmx 选项(添加 -Xmx4096m),但它没有帮助。
我正在使用sbt
12.4 和sbt-assembly
. 任何优化此任务的建议或指示?
java - 在 CentOS 上安装 Spark 时出现 Java 编译错误
我正在尝试在 CentOS 上安装 Spark。使用命令构建 sparksbt/sbt assembly
时,会出现以下错误。
我机器上安装的java版本是1.7.0_45。
早些时候我使用了 jdk 1.6.0_35,它给出了相同的错误集。我还尝试了 java 1.4,它给出了不同类型的错误。我应该使用哪个版本的 java?还是其他问题?
scala - 使用 Cassandra 的 Spark:无法注册 spark.kryo.registrator
目前,当我尝试在独立模式下使用 Cassandra 运行 Spark 时遇到一些问题。
最初,我在 SparkContext 中使用参数 mater="local[4]" 成功运行。
然后,我尝试进入独立模式。我使用的是:
Ubuntu:12.04 Cassandra:1.2.11 Spark:0.8.0 Scala:2.9.3 JDK:Oracle 1.6.0_35 Kryo:2.21
起初,我收到“未读块”错误。作为其他主题的建议,我更改为使用 Kryo 序列化程序并添加 Twitter Chill。然后,我在控制台中收到“注册 spark.kryo.registrator 失败”和如下异常:
之前也有人在spark中遇到过EOFException,答案是没有正确注册registrator。我按照 Spark 指南注册了 Registrator。注册人如下:
我也像指南一样设置属性。
谁能给我一些提示我做错了什么?谢谢。
scala - 如何使用 scala 运行 Spark 流的 Twitter 流行标签?
我是 Spark 的新手,所以请指导。
有很多与使用 Scala 的 Spark 流相关的示例。
我想运行 TwitterPopularTags.scala。
我无法为此示例设置 twitter 登录详细信息。
我成功运行了网络计数示例。
但是当我执行时
./run-example org.apache.spark.streaming.examples.TwitterPopularTags local[2]
,它会向我显示身份验证失败问题......
我在 TwitterPopularTags.scala 中初始化字符串上下文之前设置了 twitter 登录详细信息,例如
请指导。
scala - Scala代码未执行
我正在尝试在 Spark 上执行以下 scala 代码,但由于某种原因,没有调用函数选择性
选择函数定义如下
println 语句未执行。此外,该功能不返回任何东西。sc 是火花上下文对象