问题标签 [rdd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3893 问题

0 投票

2 回答

48046 浏览

apache-spark - DAG 在 RDD 中是如何工作的？

Spark 研究论文在经典的 Hadoop MapReduce 上规定了一种新的分布式编程模型，声称在许多情况下特别是在机器学习方面的简化和巨大的性能提升。然而，本文似乎缺乏揭示这一点的internal mechanics材料。Resilient Distributed DatasetsDirected Acyclic Graph

是否应该通过研究源代码更好地学习？

apache-spark rdd directed-acyclic-graphs

2014-09-14T17:59:36.190

0 投票

1 回答

236 浏览

multithreading - 如何访问 Spark GraphX .map 循环之外的值？

全新的 Apache Spark，我有点困惑如何更新.mapTripletsGraphX 中迭代之外的值。见下文：

我猜这是由于 an 的设计，RDD并且没有简单的方法来更新tempMatrix值。当我运行上面的代码时，该tempMatrix.set方法什么也不做。尝试在调试器中跟踪问题是相当困难的。

有没有人有一个简单的解决方案？谢谢！

编辑

我在上面进行了更新以显示这stationaryDistribution是一个图表 RDD。

multithreading scala apache-spark colt rdd

2014-09-16T21:38:41.710

0 投票

3 回答

26911 浏览

python - How to remove duplicate values from a RDD[PYSPARK]

I have the following table as a RDD:

I want to remove all the duplicates from Value.

Output should come like this:

While working in pyspark, output should come as list of key-value pairs like this:

I don't know how to apply for loop here. In a normal Python program it would have been very easy.

I wonder if there is some function in pyspark for the same.

python apache-spark rdd

2014-09-18T06:23:01.917

0 投票

2 回答

24412 浏览

scala - 如何根据基于 Spark 中另一个 RDD 的函数过滤 RDD？

我是 Apache Spark 的初学者。我想过滤掉所有权重总和大于 RDD 中的常数值的组。“权重”映射也是一个 RDD。这里是一个小型的demo，需要过滤的组存储在“groups”中，常量值为12：

当输入数据非常大时，例如> 10GB，我总是遇到“java heap out of memory”错误。我怀疑它是否是由“weights.toArray.toMap”引起的，因为它将分布式 RDD 转换为 JVM 中的 Java 对象。所以我尝试直接用RDD过滤：

当我result.collect将此脚本加载到 spark shell 后运行时，出现“java.lang.NullPointerException”错误。有人告诉我，当一个 RDD 在另一个 RDD 中被操作时，会出现空指针异常，并建议我将权重放到 Redis 中。

那么如何在不将“权重”转换为 Map 或将其放入 Redis 的情况下获得“结果”？如果没有外部数据存储服务的帮助，是否有一种解决方案可以基于另一个类似地图的 RDD 过滤 RDD？谢谢！

scala map apache-spark rdd

2014-09-25T09:52:47.120

0 投票

1 回答

1527 浏览

scala - 迭代 RDD 中的列

我正在研究RDD，我被困在如何通过循环技术遍历单个元组中的列。例如，类似于以下的任何内容：

虽然这是一个无用的例子，但我想实现这个功能。

scala apache-spark rdd

2014-09-25T11:17:02.310

0 投票

2 回答

17099 浏览

position - 如何获取 Spark 的 RDD 中的元素位置？

我是 Apache Spark 的新手，我知道核心数据结构是 RDD。现在我正在编写一些需要元素位置信息的应用程序。例如，将 ArrayList 转换为（Java）RDD 后，对于 RDD 中的每个整数，我需要知道它的（全局）数组下标。有可能做到吗？

据我所知，RDD 有一个take(int)函数，所以我相信位置信息仍然保留在 RDD 中。

position apache-spark rdd

2014-09-25T19:19:08.340

0 投票

1 回答

724 浏览

apache-spark - 如何查找在地图部分中创建的键数？

我正在尝试编写 Spark 应用程序，它会找到我在map函数中创建的键的数量。我找不到可以让我这样做的功能。

我想到的一种方法是使用累加器，在reduce函数中将累加器变量加 1。我的想法是基于累加器变量作为计数器在节点之间共享的假设。

请指导。

apache-spark rdd

2014-09-30T05:50:21.567

0 投票

3 回答

49060 浏览

python - 在 Spark 中将简单的单行字符串转换为 RDD

我有一条简单的线：

我想将它转换为只有一个元素的 RDD。我努力了

但它得到：

有任何想法吗？

python apache-spark pyspark distributed-computing rdd

2014-10-02T09:07:14.783

0 投票

1 回答

4685 浏览

hadoop - 细粒度变换与粗粒度变换

谁能解释一下 Spark 上下文中细粒度转换与粗粒度转换之间的区别？我正在阅读有关 RDD 的论文（https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf），并不太清楚粗获得的转换如何以有效的方式提供容错。

hadoop apache-spark rdd

2014-10-04T17:51:16.123

0 投票

1 回答

5969 浏览

java - Hadoop Spark：如何区分 JavaRDD 中的元素？

我想将一些 JavaRDD 集合的不同存储到 Spark 中的文件中？

通过使用 RDD 的 distinct() 方法，我无法达到同样的效果。

我的猜测是 RDD 将每个元素视为一个单独的实例。在这种情况下，我们如何才能实现与众不同。

以下是代码片段，有人可以帮忙吗？

提前致谢，

~基达

java apache-spark rdd

2014-10-08T07:31:40.123

1 2 3 4 5 6 7 8 9 10