问题标签 [rdd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
48046 浏览

apache-spark - DAG 在 RDD 中是如何工作的?

Spark 研究论文在经典的 Hadoop MapReduce 上规定了一种新的分布式编程模型,声称在许多情况下特别是在机器学习方面的简化和巨大的性能提升。然而,本文似乎缺乏揭示这一点的internal mechanics材料。Resilient Distributed DatasetsDirected Acyclic Graph

是否应该通过研究源代码更好地学习?

0 投票
1 回答
236 浏览

multithreading - 如何访问 Spark GraphX .map 循环之外的值?

全新的 Apache Spark,我有点困惑如何更新.mapTripletsGraphX 中迭代之外的值。见下文:

我猜这是由于 an 的设计,RDD并且没有简单的方法来更新tempMatrix值。当我运行上面的代码时,该tempMatrix.set方法什么也不做。尝试在调试器中跟踪问题是相当困难的。

有没有人有一个简单的解决方案?谢谢!

编辑

我在上面进行了更新以显示这stationaryDistribution是一个图表 RDD。

0 投票
3 回答
26911 浏览

python - How to remove duplicate values from a RDD[PYSPARK]

I have the following table as a RDD:

I want to remove all the duplicates from Value.

Output should come like this:

While working in pyspark, output should come as list of key-value pairs like this:

I don't know how to apply for loop here. In a normal Python program it would have been very easy.

I wonder if there is some function in pyspark for the same.

0 投票
2 回答
24412 浏览

scala - 如何根据基于 Spark 中另一个 RDD 的函数过滤 RDD?

我是 Apache Spark 的初学者。我想过滤掉所有权重总和大于 RDD 中的常数值的组。“权重”映射也是一个 RDD。这里是一个小型的demo,需要过滤的组存储在“groups”中,常量值为12:

当输入数据非常大时,例如> 10GB,我总是遇到“java heap out of memory”错误。我怀疑它是否是由“weights.toArray.toMap”引起的,因为它将分布式 RDD 转换为 JVM 中的 Java 对象。所以我尝试直接用RDD过滤:

当我result.collect将此脚本加载到 spark shell 后运行时,出现“java.lang.NullPointerException”错误。有人告诉我,当一个 RDD 在另一个 RDD 中被操作时,会出现空指针异常,并建议我将权重放到 Redis 中。

那么如何在不将“权重”转换为 Map 或将其放入 Redis 的情况下获得“结果”?如果没有外部数据存储服务的帮助,是否有一种解决方案可以基于另一个类似地图的 RDD 过滤 RDD?谢谢!

0 投票
1 回答
1527 浏览

scala - 迭代 RDD 中的列

我正在研究RDD,我被困在如何通过循环技术遍历单个元组中的列。例如,类似于以下的任何内容:

虽然这是一个无用的例子,但我想实现这个功能。

0 投票
2 回答
17099 浏览

position - 如何获取 Spark 的 RDD 中的元素位置?

我是 Apache Spark 的新手,我知道核心数据结构是 RDD。现在我正在编写一些需要元素位置信息的应用程序。例如,将 ArrayList 转换为(Java)RDD 后,对于 RDD 中的每个整数,我需要知道它的(全局)数组下标。有可能做到吗?

据我所知,RDD 有一个take(int)函数,所以我相信位置信息仍然保留在 RDD 中。

0 投票
1 回答
724 浏览

apache-spark - 如何查找在地图部分中创建的键数?

我正在尝试编写 Spark 应用程序,它会找到我在map函数中创建的键的数量。我找不到可以让我这样做的功能。

我想到的一种方法是使用累加器,在reduce函数中将累加器变量加 1。我的想法是基于累加器变量作为计数器在节点之间共享的假设。

请指导。

0 投票
3 回答
49060 浏览

python - 在 Spark 中将简单的单行字符串转换为 RDD

我有一条简单的线:

我想将它转换为只有一个元素的 RDD。我努力了

但它得到:

有任何想法吗?

0 投票
1 回答
4685 浏览

hadoop - 细粒度变换与粗粒度变换

谁能解释一下 Spark 上下文中细粒度转换与粗粒度转换之间的区别?我正在阅读有关 RDD 的论文(https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf),并不太清楚粗获得的转换如何以有效的方式提供容错。

0 投票
1 回答
5969 浏览

java - Hadoop Spark:如何区分 JavaRDD 中的元素?

我想将一些 JavaRDD 集合的不同存储到 Spark 中的文件中?

通过使用 RDD 的 distinct() 方法,我无法达到同样的效果。

我的猜测是 RDD 将每个元素视为一个单独的实例。在这种情况下,我们如何才能实现与众不同。

以下是代码片段,有人可以帮忙吗?

提前致谢,

~基达