问题标签 [rdd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
42006 浏览

apache-spark - 如何在 Spark RDD 中选择一系列元素?

我想在 Spark RDD 中选择一系列元素。例如,我有一个包含一百个元素的 RDD,我需要选择 60 到 80 个元素。我该怎么做?

我看到 RDD 有一个 take(i: int) 方法,它返回第一个 i 元素。但是没有对应的方法来取最后的 i 个元素,或者从某个索引开始从中间开始的 i 个元素。

0 投票
1 回答
2538 浏览

scala - 在 spark 中保存 RDD 的临时变量

我不确定如何用尽可能短的句子来描述这一点,但无论如何我都会尝试。假设我在一个名为data的变量中有一个这种格式的 RDD

b 和 c 是先前 RDD 转换产生的数组。基于某些条件,我想将 RDD 转换为仅从 b 或 c 获取 1 列。我在声明临时变量来存储 rdd 时遇到问题。

如果我使用valif语句中声明 new_data ,它将超出 if 语句的范围。我尝试使用 var,但我不知道如何初始化它。我尝试使用MappedRDD 和 RDD 类型的var,但我似乎无法将映射操作的值分配给它。

0 投票
1 回答
755 浏览

scala - 对scala中传递参数的理解混乱

Spark 的 RDD 中的两个groupBy方法声明为:

我将函数 f 定义为:

我可以直接传给f第一个groupByas rdd.groupBy(f)

为什么我不能直接传到f第二个groupByas rdd.groupBy(f, 10)?我必须使用rdd.groupBy(f(_), 10)or rdd.groupBy(x => f(x), 10)

0 投票
1 回答
3034 浏览

java - 如何将 scala.collection.Set 转换为 java.util.Set 并在 RDD 中可序列化

我有一个 scala.collection.Set scalaSet : Set[Long]

我将如何将其转换为java.util.Set可序列化的。我尝试了以下代码,但得到了 java.io.notserializableexception: scala.collection.convert.wrappers$setWrapper

在尝试序列化从 scala 转换为答案的 java map 时看到了线程 notserializable 异常,但该解决方案不适用于序列化

0 投票
2 回答
11153 浏览

scala - Spark - scala:随机播放 RDD / 将 RDD 拆分为两个随机部分

如何获取一个 rdd 的 spark 数组,并将其随机分成两个 rdd,这样每个 rdd 都将包含部分数据(比如说 97% 和 3%)。

我想改组列表然后shuffledList.take((0.97*rddList.count).toInt)

但是我怎样才能随机播放rdd?

还是有更好的方法来拆分列表?

0 投票
2 回答
4875 浏览

mysql - 如何在mysql数据库中保存apache spark模式输出

谁能告诉我apache spark中是否有任何方法可以在mysql数据库上存储JavaRDD?我从 2 个 csv 文件中获取输入,然后在对其内容进行连接操作后,我需要将输出(输出 JavaRDD)保存在 mysql 数据库中。我已经能够在 hdfs 上成功保存输出,但我没有找到任何与 apache Spark-MYSQL 连接相关的信息。下面我发布 spark sql 的代码。这可以作为那些正在寻找 spark-sql 示例的人的参考。

最后,我将结果成功保存在 HDFS 中。但现在我想保存到 MYSQL 数据库中。请帮帮我。谢谢

0 投票
1 回答
1191 浏览

classification - 在 Apache Spark RDD 映射中进行批处理

我有一种情况,当给定批处理时,底层函数的运行效率显着提高。我有这样的现有代码:

classify方法适用于单个元素,但对元素组进行操作会更有效。我考虑使用coalesce将 RDD 拆分为块并将每个块作为一个组进行操作,但是这样做有两个问题:

  1. 我不确定如何返回映射的 RDD。
  2. classify事先不知道组应该有多大,并且根据输入的内容而有所不同。

关于如何在理想情况下调用的示例代码classify(输出很混乱,因为它不会溢出非常大的输入):

这种方式classifyInBatches可以在内部有这样的代码:

我可以在 Apache Spark 中做什么来允许类似这样的行为?

0 投票
1 回答
1162 浏览

scala - 在 Spark 中使用 Scala 中的递归联合构建 RDD

所以我对函数式编程和 Spark 和 Scala 还很陌生,所以如果这很明显,请原谅我......但基本上我有一个通过 HDFS 满足某些标准的文件列表,即如下所示:

我现在需要从这个列表中建立一个 RDD 来使用......我的想法是使用递归联合......基本上是一个类似的函数:

然后只需通过地图应用它:

0 投票
4 回答
81661 浏览

hbase - 如何使用 spark 从 hbase 中读取数据

下面的代码将从 hbase 读取,然后将其转换为 json 结构并转换为 schemaRDD,但问题是我using List要存储 json 字符串然后传递给 javaRDD,对于大约 100 GB 的数据,master 将加载内存中的数据。从 hbase 加载数据然后执行操作,然后转换为 JavaRDD 的正确方法是什么。

0 投票
3 回答
27414 浏览

apache-spark - Apache Spark:通过键将Pair RDD拆分为多个RDD以保存值

我正在使用 Spark 1.0.1 处理大量数据。每行包含一个 ID 号,其中一些具有重复的 ID。我想将具有相同 ID 号的所有行保存在同一位置,但我无法有效地执行此操作。我创建了(ID 号,数据行)对的 RDD[(String, String)]:

一种有效但不高效的方法是收集 ID 号,过滤每个 ID 的 RDD,并将具有相同 ID 的值的 RDD 保存为文本文件。

我还尝试了 groupByKey 或 reduceByKey ,这样 RDD 中的每个元组都包含一个唯一的 ID 号作为键,以及由该 ID 号的新行分隔的一串组合数据行。我只想使用 foreach 遍历 RDD 一次来保存数据,但它不能将值作为 RDD

本质上,我想通过 ID 号将 RDD 拆分为多个 RDD,并将该 ID 号的值保存到它们自己的位置。