问题标签 [rdd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3893 问题

0 投票

4 回答

42006 浏览

apache-spark - 如何在 Spark RDD 中选择一系列元素？

我想在 Spark RDD 中选择一系列元素。例如，我有一个包含一百个元素的 RDD，我需要选择 60 到 80 个元素。我该怎么做？

我看到 RDD 有一个 take(i: int) 方法，它返回第一个 i 元素。但是没有对应的方法来取最后的 i 个元素，或者从某个索引开始从中间开始的 i 个元素。

apache-spark rdd

2014-07-10T12:57:37.410

0 投票

1 回答

2538 浏览

scala - 在 spark 中保存 RDD 的临时变量

我不确定如何用尽可能短的句子来描述这一点，但无论如何我都会尝试。假设我在一个名为data的变量中有一个这种格式的 RDD

b 和 c 是先前 RDD 转换产生的数组。基于某些条件，我想将 RDD 转换为仅从 b 或 c 获取 1 列。我在声明临时变量来存储 rdd 时遇到问题。

如果我使用val在if语句中声明 new_data ，它将超出 if 语句的范围。我尝试使用 var，但我不知道如何初始化它。我尝试使用MappedRDD 和 RDD 类型的var，但我似乎无法将映射操作的值分配给它。

2014-07-12T00:08:48.170

0 投票

1 回答

755 浏览

scala - 对scala中传递参数的理解混乱

Spark 的 RDD 中的两个groupBy方法声明为：

我将函数 f 定义为：

我可以直接传给f第一个groupByas rdd.groupBy(f)。

为什么我不能直接传到f第二个groupByas rdd.groupBy(f, 10)？我必须使用rdd.groupBy(f(_), 10)or rdd.groupBy(x => f(x), 10)。

scala apache-spark rdd

2014-07-18T14:22:02.013

0 投票

1 回答

3034 浏览

java - 如何将 scala.collection.Set 转换为 java.util.Set 并在 RDD 中可序列化

我有一个 scala.collection.Set scalaSet : Set[Long]。

我将如何将其转换为java.util.Set可序列化的。我尝试了以下代码，但得到了 java.io.notserializableexception: scala.collection.convert.wrappers$setWrapper

我在尝试序列化从 scala 转换为答案的 java map 时看到了线程 notserializable 异常，但该解决方案不适用于序列化

java serialization apache-spark scala-2.9 rdd

2014-07-19T06:44:29.777

0 投票

2 回答

11153 浏览

scala - Spark - scala：随机播放 RDD / 将 RDD 拆分为两个随机部分

如何获取一个 rdd 的 spark 数组，并将其随机分成两个 rdd，这样每个 rdd 都将包含部分数据（比如说 97% 和 3%）。

我想改组列表然后shuffledList.take((0.97*rddList.count).toInt)

但是我怎样才能随机播放rdd？

还是有更好的方法来拆分列表？

scala apache-spark rdd

2014-07-21T12:13:05.370

0 投票

2 回答

4875 浏览

mysql - 如何在mysql数据库中保存apache spark模式输出

谁能告诉我apache spark中是否有任何方法可以在mysql数据库上存储JavaRDD？我从 2 个 csv 文件中获取输入，然后在对其内容进行连接操作后，我需要将输出（输出 JavaRDD）保存在 mysql 数据库中。我已经能够在 hdfs 上成功保存输出，但我没有找到任何与 apache Spark-MYSQL 连接相关的信息。下面我发布 spark sql 的代码。这可以作为那些正在寻找 spark-sql 示例的人的参考。

最后，我将结果成功保存在 HDFS 中。但现在我想保存到 MYSQL 数据库中。请帮帮我。谢谢

mysql apache-spark rdd

2014-07-22T19:33:59.857

0 投票

1 回答

1191 浏览

classification - 在 Apache Spark RDD 映射中进行批处理

我有一种情况，当给定批处理时，底层函数的运行效率显着提高。我有这样的现有代码：

该classify方法适用于单个元素，但对元素组进行操作会更有效。我考虑使用coalesce将 RDD 拆分为块并将每个块作为一个组进行操作，但是这样做有两个问题：

我不确定如何返回映射的 RDD。
classify事先不知道组应该有多大，并且根据输入的内容而有所不同。

关于如何在理想情况下调用的示例代码classify（输出很混乱，因为它不会溢出非常大的输入）：

这种方式classifyInBatches可以在内部有这样的代码：

我可以在 Apache Spark 中做什么来允许类似这样的行为？

classification apache-spark rdd

2014-07-22T22:08:15.927

0 投票

1 回答

1162 浏览

scala - 在 Spark 中使用 Scala 中的递归联合构建 RDD

所以我对函数式编程和 Spark 和 Scala 还很陌生，所以如果这很明显，请原谅我......但基本上我有一个通过 HDFS 满足某些标准的文件列表，即如下所示：

我现在需要从这个列表中建立一个 RDD 来使用......我的想法是使用递归联合......基本上是一个类似的函数：

然后只需通过地图应用它：

scala recursion functional-programming apache-spark rdd

2014-07-24T15:46:11.593

0 投票

4 回答

81661 浏览

hbase - 如何使用 spark 从 hbase 中读取数据

下面的代码将从 hbase 读取，然后将其转换为 json 结构并转换为 schemaRDD，但问题是我using List要存储 json 字符串然后传递给 javaRDD，对于大约 100 GB 的数据，master 将加载内存中的数据。从 hbase 加载数据然后执行操作，然后转换为 JavaRDD 的正确方法是什么。

hbase apache-spark rdd

2014-07-30T15:22:27.603

0 投票

3 回答

27414 浏览

apache-spark - Apache Spark：通过键将Pair RDD拆分为多个RDD以保存值

我正在使用 Spark 1.0.1 处理大量数据。每行包含一个 ID 号，其中一些具有重复的 ID。我想将具有相同 ID 号的所有行保存在同一位置，但我无法有效地执行此操作。我创建了（ID 号，数据行）对的 RDD[(String, String)]：

一种有效但不高效的方法是收集 ID 号，过滤每个 ID 的 RDD，并将具有相同 ID 的值的 RDD 保存为文本文件。

我还尝试了 groupByKey 或 reduceByKey ，这样 RDD 中的每个元组都包含一个唯一的 ID 号作为键，以及由该 ID 号的新行分隔的一串组合数据行。我只想使用 foreach 遍历 RDD 一次来保存数据，但它不能将值作为 RDD

本质上，我想通过 ID 号将 RDD 拆分为多个 RDD，并将该 ID 号的值保存到它们自己的位置。

apache-spark filter rdd

2014-07-30T20:21:52.367

1 2 3 4 5 6 7 8 9 10

问题标签 [rdd]

Reference