问题标签 [rdd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
2649 浏览

java - 如何将 Spark RDD 转换为 JSON 对象 java

当使用 Cassandra 和 Spark 时,我恢复的 RDD 如下所示:

我怎样才能让它看起来像一个 JSON 对象?现在我正在通过手动替换 Mapped RDD 的部分使其看起来像 JSON 来做到这一点,但我想要一个函数或快速方法将 Spark RDD 映射到 JSON,以便它可以处理不同的数据 RDD。

0 投票
3 回答
19019 浏览

apache-spark - How to reverse ordering for RDD.takeOrdered()?

What is the syntax to reverse the ordering for the takeOrdered() method of an RDD in Spark?

For bonus points, what is the syntax for custom-ordering for an RDD in Spark?

0 投票
1 回答
62 浏览

java - 使用 Apache Spark 指定特定机器

一般来说,我对 Spark 和 Hadoop 类型的东西完全陌生,所以如果这是一个令人痛苦的基本问题,请原谅我。我正在尝试设计一个系统,该系统将利用一些机器的集群来执行一系列任务中的第一个任务。在第一个任务生成的 RDD 上运行的后续任务必须全部在同一台机器上完成。这可以是集群中的任何机器,只要它在程序运行期间始终是该机器。

我如何确保发生这种情况?我可以在集群中保留一台机器并始终在该机器上运行后续任务吗?如果是这样,那在 Java 中看起来如何?如果没有,还有其他方法可以做到这一点吗?

0 投票
1 回答
422 浏览

scala - Spark 是否处理资源管理?

我是 Apache Spark 的新手,我开始学习 Scala 和 Spark。在此代码片段中,Spark 是否在程序完成后处理关闭文本文件?

我知道在 Java 中,当你打开一个文件时,你必须使用 try-catch-finally 或 try-with-resources 来关闭它。

在这个例子中,我提到了一个文本文件,但我想知道 Spark 是否会在资源完成后处理关闭资源,因为 RDD 可以采用多种不同类型的数据集。

0 投票
1 回答
467 浏览

scala - 如何与 RDD[(Int,Int)] 地图进行比较?

我正在自己使用 Spark 实施k-means作为练习。为此,我需要比较id -> cluster_id每一步的 2 张地图。目前,我通过收集它们并作为两个普通的 scala 地图进行比较来做到这一点。

有没有办法并行执行此操作?这值得么?

更新:

让我详细描述一下情况,从K-MEANS聚类算法开始(很简单)

  1. 从所有 N 个点中随机选择 K 个点,使它们成为质心。
  2. 将每个点分配给最近的质心(根据欧几里德距离)
  3. 重新计算质心,按指定的质心对所有点进行分组,计算这些点的平均值
  4. 如果重新计算生成的映射 (obj_id -> centroid_id) 不是上一步中的映射,则重复步骤 2-3

第 4 步是个问题。我需要将我在上一步中的映射与我现在的映射进行比较,这应该以某种方式并行完成,而不会在工作人员之间进行太多随机读取。

0 投票
1 回答
3451 浏览

java - 使用 Mongo-Hadoop 连接器通过 Apache Spark 更新 MongoDb 中的集合

我想通过 Java 中的 Spark 更新 MongoDb 中的特定集合。我正在使用MongoDB Connector for HadoopApache Spark检索信息并将其保存到 Java 中的 MongoDb。

在关注 Sampo Niskanen 关于通过 Spark 检索和保存集合到 MongoDb 的优秀帖子之后,我陷入了更新集合的困境。

MongoOutputFormat.java包含一个采用 String[] updateKeys 的构造函数,我猜它是指一个可能的键列表,用于在现有集合上进行比较并执行更新。saveAsNewApiHadoopFile()但是,使用带有参数的 Spark方法MongoOutputFormat.class,我想知道如何使用该更新构造函数。

在此之前,MongoUpdateWritable.java被用于执行集合更新。从我在 Hadoop 上看到的示例来看,这通常设置为mongo.job.output.value,在 Spark 中可能是这样的:

但是,我仍然想知道如何在MongoUpdateWritable.java.

诚然,作为一种 hacky 方式,我已将对象的“_id”设置为我的文档的 KeyValue,以便在执行保存时,集合将覆盖具有相同 KeyValue 的文档_id

我想通过 Spark 使用MongoOutputFormatorMongoUpdateWritable或执行 mongodb 集合更新Configuration,最好使用该saveAsNewAPIHadoopFile()方法。可能吗?如果没有,是否有任何其他方式不涉及专门将 _id 设置为我要更新的键值?

0 投票
1 回答
1209 浏览

scala - Spark RDD any() 和 all() 方法?

我有一个RDD[T]和一个谓词T => Boolean。我如何计算所有项目是否适合/不适合谓词?

当然我可以这样做:

但这将需要完整的集合来迭代,这是一种矫枉过正的做法。

我尝试了另一种适用于local[1]的方法,但似乎也遍历了真实集群上的所有内容:

[如果找不到任何需要的,则异常失败]

实现这一目标的规范方法是什么?

0 投票
4 回答
5801 浏览

scala - 使用 squaredDistance 的两点之间的 Apache Spark 距离

我有一个向量的 RDD 集合,其中每个向量表示一个点xy坐标。例如,文件如下:

我正在阅读它:

另外,我有一个 epsilon:

对于每个点,我想找到它在 epsilon 距离内的邻居。我愿意:

如何循环所有点并为每个点找到它的邻居?可能使用map函数?

0 投票
0 回答
250 浏览

apache-spark - Apache Spark 使用来自现有 RDD 的沿袭信息创建新 RDD

经过多次转换后,我从 RDD(root) 获得了一个 RDD(child)。

当我加载新版本的根 RDD 时说 RDD(根新版本),

我想使用以下组合重新计算 RDD(child)

1)来自现有RDD(根)的沿袭信息

2)RDD(根新版本)。

谁能告诉我它是否可行?

问候, SV

0 投票
2 回答
2425 浏览

scala - Spark foreach 中的代码执行

我有两个 RDD:pointspointsWithinEps. 中的每个点points代表x, y坐标。pointsWithinEps表示两点和它们之间的距离:((x, y), distance). 我想循环所有点,并且为每个点过滤仅位于pointsWithinEpsas x(第一)坐标中的元素。所以我做以下事情:

但是这种语法是无效的。据我了解,不允许在 Spark foreach 中创建变量。我应该做这样的事情吗?

或者有更好的方法来做到这一点?完整的代码托管在这里:https ://github.com/timasjov/spark-learning/blob/master/src/DBSCAN.scala

编辑:

现在我有以下代码,但它抛出了 NullPointerException (pointsWithinEps)。如何解决它为什么pointsWithinEps是 null (在 foreach 之前有元素)?