问题标签 [rdd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3893 问题

0 投票

1 回答

512 浏览

scala - 在 reduceByKey RDD 中获取值的数量

当调用 reduceByKey 操作时，它正在接收特定键的值列表。我的问题是：

它接收到的值列表是按排序顺序排列的吗？
是否有可能知道它收到了多少值？
我正在尝试计算reduceByKey 中键值列表的第一个四分位数。这可以在reduceByKey中做到吗？

2014-07-31T19:25:50.087

0 投票

2 回答

3372 浏览

scala - 并行处理 Spark 列

我一直在玩 Spark，我设法让它来处理我的数据。我的数据由平面分隔的文本文件组成，由 50 列和大约 2000 万行组成。我有可以处理每一列的 scala 脚本。

在并行处理方面，我知道 RDD 操作在多个节点上运行。因此，每次我处理一列时，它们都会并行处理，但列本身是按顺序处理的。

一个简单的例子：如果我的数据是 5 列文本分隔文件并且每列包含文本，我想对每列进行字数统计。我会做：

尽管每列的操作是并行运行的，但列本身是按顺序处理的（我知道的措辞不好。对不起！）。换句话说，在第 1 列完成后处理第 2 列。第 3 列在第 1 列和第 2 列完成后处理，依此类推。

我的问题是：有没有一次处理多个列？如果你知道一种方法，cor一个教程，你介意与我分享吗？

谢谢你！！

scala apache-spark rdd

2014-08-06T22:08:05.930

0 投票

2 回答

8665 浏览

apache-spark - 如何将 JavaPairRDD 转换为 HashMap

我有一个包含键值对的 JavaPairDStream。我需要将它转换为 HashMap。我已经尝试通过在其上调用“collectAsMap()”函数及其工作来对普通 JavaPairRDD 执行相同操作，但是当我尝试在 DStream 上执行相同操作时，它失败了。

我试图通过使用“foreachRDD”函数将“JavaPairDStream”转换为“JavaPairRDD”，然后在 JavaPairRDD 上使用“collectAsMap()”函数来实现相同的目的。

它没有给出任何编译错误，但是当我运行程序时它会失败并抛出如下错误。

我不确定我的方法是否正确。普通的“JavaPairRDD”和由“foreachRDD”函数创建的有什么区别吗？为什么相同的方法适用于普通的“JavaPairRDD”，但当我将其应用于通过在 JavaPairDStream 上应用“foreachRDD”函数创建的“JavaPairRDD”时会失败。如果我在任何地方出错，请告诉我。另外，如果还有其他方法，请在此处发布。谢谢。

apache-spark rdd

2014-08-10T15:55:06.253

0 投票

2 回答

5780 浏览

regex - 如何使用 Spark 进行 RegExp 文件？

我UDP_file.txt包含：

我需要做的是：

加载文件，
正则表达式它，
行比匹配模式保存在文件'good_records.txt'中，
与模式不匹配的行保存在文件“bad_records.txt”中

当我在一行上测试模式时，它可以工作：

或者

但我不知道如何在加载文件的每一行上使用它。

你能帮我吗？我将不胜感激任何建议。
帕维尔

regex scala mapping apache-spark rdd

2014-08-20T08:51:58.410

0 投票

2 回答

8439 浏览

apache-spark - 如何对两个模式 RDD 执行连接操作？

我有两个 SchemaRDD，我想对它们执行连接操作（与 SQL 连接相同）。请帮我。

apache-spark rdd

2014-08-22T17:09:17.667

0 投票

2 回答

1562 浏览

apache-spark - Spark：如何指定持有 RDD 的 executor 数量？

我试图通过将 RDD 分配给尽可能多的执行者来最大化并行性。据我所知，用户可以使用重新分区、合并或并行化来更改分区数。但是我无法找到一种方法来更改执行者的数量来保存分区。任何人都可以暗示如何做到这一点吗？

apache-spark rdd

2014-08-31T07:00:59.370

0 投票

2 回答

1230 浏览

scala - Spark scala RDD遍历

我如何使用 Spark scala 遍历 RDD。我想用关联的键打印 Seq 中存在的每个值

我尝试了以下代码。

scala map apache-spark rdd

2014-09-02T11:05:30.030

0 投票

1 回答

1239 浏览

scala - Spark中的过滤器功能

我在 Spark 中用 scala 编写了以下代码：

（inactiveIDs 是 a RDD[(Int, Seq[String])]，persons 是 a Broadcast[RDD[(Int, Seq[Event])]]，Event 是我创建的一个类）

和以下错误：

有任何想法吗？

scala map filter apache-spark rdd

2014-09-08T14:42:14.010

0 投票

1 回答

18517 浏览

python - 在 python 中使用 foreach 和 Spark RDD

我正在尝试在集群上运行一个非常大的 RDD 并将其写入 .csv。它是如此之大以至于 .collect() 中断，所以我想将 RDD 保存到每个节点上的片段中，然后以某种方式将它们组合在一起，因为顺序无关紧要。我的想法是将 foreach 与 CSV 打印机功能一起使用，以便每个部分都写入它的值，然后我可以手动将这些部分收集在一起，也许是通过 FTP。

我是一个有一定经验的 Spark 用户，但到目前为止，我从来没有能够让 RDD 的 foreach 方法做任何有用的事情。当我尝试运行文档中给出的示例时，

我的控制台上什么也没有。我相信这是因为“打印”是在单独的节点上执行的，而不是控制台所在的名称节点。不过，在那种情况下，我真的看不出 foreach 函数有什么意义！

如何在不首先调用 collect() 函数的情况下将我的 for each 的结果返回到名称节点？

注意。我也愿意使用 saveAsTextFile() RDD 函数，但我还是无法让它工作！它似乎创建了一个文件夹而不是文本文件，尽管这可能是因为它们也存在于每个节点上而不是集中存在？

python foreach apache-spark rdd

2014-09-11T10:50:31.617

0 投票

0 回答

634 浏览

apache-spark - 为什么在 DStreams 上运行 SparkSQL 会为 org.apache.spark.rdd.ShuffledRDDPartition 提供 ClassCastException？

在 DStream 中的每个 RDD 上运行 SparkSQL 时出现 ClassCastException。

apache-spark spark-streaming rdd apache-spark-sql

2014-09-13T05:10:32.033

1 2 3 4 5 6 7 8 9 10

问题标签 [rdd]

Reference