问题标签 [rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - DAG 在 RDD 中是如何工作的?
Spark 研究论文在经典的 Hadoop MapReduce 上规定了一种新的分布式编程模型,声称在许多情况下特别是在机器学习方面的简化和巨大的性能提升。然而,本文似乎缺乏揭示这一点的internal mechanics
材料。Resilient Distributed Datasets
Directed Acyclic Graph
是否应该通过研究源代码更好地学习?
multithreading - 如何访问 Spark GraphX .map 循环之外的值?
全新的 Apache Spark,我有点困惑如何更新.mapTriplets
GraphX 中迭代之外的值。见下文:
我猜这是由于 an 的设计,RDD
并且没有简单的方法来更新tempMatrix
值。当我运行上面的代码时,该tempMatrix.set
方法什么也不做。尝试在调试器中跟踪问题是相当困难的。
有没有人有一个简单的解决方案?谢谢!
编辑
我在上面进行了更新以显示这stationaryDistribution
是一个图表 RDD。
python - How to remove duplicate values from a RDD[PYSPARK]
I have the following table as a RDD:
I want to remove all the duplicates from Value
.
Output should come like this:
While working in pyspark, output should come as list of key-value pairs like this:
I don't know how to apply for
loop here. In a normal Python program it would have been very easy.
I wonder if there is some function in pyspark
for the same.
scala - 如何根据基于 Spark 中另一个 RDD 的函数过滤 RDD?
我是 Apache Spark 的初学者。我想过滤掉所有权重总和大于 RDD 中的常数值的组。“权重”映射也是一个 RDD。这里是一个小型的demo,需要过滤的组存储在“groups”中,常量值为12:
当输入数据非常大时,例如> 10GB,我总是遇到“java heap out of memory”错误。我怀疑它是否是由“weights.toArray.toMap”引起的,因为它将分布式 RDD 转换为 JVM 中的 Java 对象。所以我尝试直接用RDD过滤:
当我result.collect
将此脚本加载到 spark shell 后运行时,出现“java.lang.NullPointerException”错误。有人告诉我,当一个 RDD 在另一个 RDD 中被操作时,会出现空指针异常,并建议我将权重放到 Redis 中。
那么如何在不将“权重”转换为 Map 或将其放入 Redis 的情况下获得“结果”?如果没有外部数据存储服务的帮助,是否有一种解决方案可以基于另一个类似地图的 RDD 过滤 RDD?谢谢!
scala - 迭代 RDD 中的列
我正在研究RDD
,我被困在如何通过循环技术遍历单个元组中的列。例如,类似于以下的任何内容:
虽然这是一个无用的例子,但我想实现这个功能。
position - 如何获取 Spark 的 RDD 中的元素位置?
我是 Apache Spark 的新手,我知道核心数据结构是 RDD。现在我正在编写一些需要元素位置信息的应用程序。例如,将 ArrayList 转换为(Java)RDD 后,对于 RDD 中的每个整数,我需要知道它的(全局)数组下标。有可能做到吗?
据我所知,RDD 有一个take(int)函数,所以我相信位置信息仍然保留在 RDD 中。
apache-spark - 如何查找在地图部分中创建的键数?
我正在尝试编写 Spark 应用程序,它会找到我在map
函数中创建的键的数量。我找不到可以让我这样做的功能。
我想到的一种方法是使用累加器,在reduce
函数中将累加器变量加 1。我的想法是基于累加器变量作为计数器在节点之间共享的假设。
请指导。
python - 在 Spark 中将简单的单行字符串转换为 RDD
我有一条简单的线:
我想将它转换为只有一个元素的 RDD。我努力了
但它得到:
有任何想法吗?
hadoop - 细粒度变换与粗粒度变换
谁能解释一下 Spark 上下文中细粒度转换与粗粒度转换之间的区别?我正在阅读有关 RDD 的论文(https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf),并不太清楚粗获得的转换如何以有效的方式提供容错。
java - Hadoop Spark:如何区分 JavaRDD 中的元素?
我想将一些 JavaRDD 集合的不同存储到 Spark 中的文件中?
通过使用 RDD 的 distinct() 方法,我无法达到同样的效果。
我的猜测是 RDD 将每个元素视为一个单独的实例。在这种情况下,我们如何才能实现与众不同。
以下是代码片段,有人可以帮忙吗?
提前致谢,
~基达