问题标签 [rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 如何在 Spark RDD 中选择一系列元素?
我想在 Spark RDD 中选择一系列元素。例如,我有一个包含一百个元素的 RDD,我需要选择 60 到 80 个元素。我该怎么做?
我看到 RDD 有一个 take(i: int) 方法,它返回第一个 i 元素。但是没有对应的方法来取最后的 i 个元素,或者从某个索引开始从中间开始的 i 个元素。
scala - 在 spark 中保存 RDD 的临时变量
我不确定如何用尽可能短的句子来描述这一点,但无论如何我都会尝试。假设我在一个名为data的变量中有一个这种格式的 RDD
b 和 c 是先前 RDD 转换产生的数组。基于某些条件,我想将 RDD 转换为仅从 b 或 c 获取 1 列。我在声明临时变量来存储 rdd 时遇到问题。
如果我使用val在if语句中声明 new_data ,它将超出 if 语句的范围。我尝试使用 var,但我不知道如何初始化它。我尝试使用MappedRDD 和 RDD 类型的var,但我似乎无法将映射操作的值分配给它。
scala - 对scala中传递参数的理解混乱
Spark 的 RDD 中的两个groupBy
方法声明为:
我将函数 f 定义为:
我可以直接传给f
第一个groupBy
as rdd.groupBy(f)
。
为什么我不能直接传到f
第二个groupBy
as rdd.groupBy(f, 10)
?我必须使用rdd.groupBy(f(_), 10)
or rdd.groupBy(x => f(x), 10)
。
java - 如何将 scala.collection.Set 转换为 java.util.Set 并在 RDD 中可序列化
我有一个 scala.collection.Set scalaSet : Set[Long]
。
我将如何将其转换为java.util.Set
可序列化的。我尝试了以下代码,但得到了
java.io.notserializableexception: scala.collection.convert.wrappers$setWrapper
我在尝试序列化从 scala 转换为答案的 java map 时看到了线程 notserializable 异常,但该解决方案不适用于序列化
scala - Spark - scala:随机播放 RDD / 将 RDD 拆分为两个随机部分
如何获取一个 rdd 的 spark 数组,并将其随机分成两个 rdd,这样每个 rdd 都将包含部分数据(比如说 97% 和 3%)。
我想改组列表然后shuffledList.take((0.97*rddList.count).toInt)
但是我怎样才能随机播放rdd?
还是有更好的方法来拆分列表?
mysql - 如何在mysql数据库中保存apache spark模式输出
谁能告诉我apache spark中是否有任何方法可以在mysql数据库上存储JavaRDD?我从 2 个 csv 文件中获取输入,然后在对其内容进行连接操作后,我需要将输出(输出 JavaRDD)保存在 mysql 数据库中。我已经能够在 hdfs 上成功保存输出,但我没有找到任何与 apache Spark-MYSQL 连接相关的信息。下面我发布 spark sql 的代码。这可以作为那些正在寻找 spark-sql 示例的人的参考。
最后,我将结果成功保存在 HDFS 中。但现在我想保存到 MYSQL 数据库中。请帮帮我。谢谢
classification - 在 Apache Spark RDD 映射中进行批处理
我有一种情况,当给定批处理时,底层函数的运行效率显着提高。我有这样的现有代码:
该classify
方法适用于单个元素,但对元素组进行操作会更有效。我考虑使用coalesce
将 RDD 拆分为块并将每个块作为一个组进行操作,但是这样做有两个问题:
- 我不确定如何返回映射的 RDD。
classify
事先不知道组应该有多大,并且根据输入的内容而有所不同。
关于如何在理想情况下调用的示例代码classify
(输出很混乱,因为它不会溢出非常大的输入):
这种方式classifyInBatches
可以在内部有这样的代码:
我可以在 Apache Spark 中做什么来允许类似这样的行为?
scala - 在 Spark 中使用 Scala 中的递归联合构建 RDD
所以我对函数式编程和 Spark 和 Scala 还很陌生,所以如果这很明显,请原谅我......但基本上我有一个通过 HDFS 满足某些标准的文件列表,即如下所示:
我现在需要从这个列表中建立一个 RDD 来使用......我的想法是使用递归联合......基本上是一个类似的函数:
然后只需通过地图应用它:
hbase - 如何使用 spark 从 hbase 中读取数据
下面的代码将从 hbase 读取,然后将其转换为 json 结构并转换为 schemaRDD,但问题是我using List
要存储 json 字符串然后传递给 javaRDD,对于大约 100 GB 的数据,master 将加载内存中的数据。从 hbase 加载数据然后执行操作,然后转换为 JavaRDD 的正确方法是什么。
apache-spark - Apache Spark:通过键将Pair RDD拆分为多个RDD以保存值
我正在使用 Spark 1.0.1 处理大量数据。每行包含一个 ID 号,其中一些具有重复的 ID。我想将具有相同 ID 号的所有行保存在同一位置,但我无法有效地执行此操作。我创建了(ID 号,数据行)对的 RDD[(String, String)]:
一种有效但不高效的方法是收集 ID 号,过滤每个 ID 的 RDD,并将具有相同 ID 的值的 RDD 保存为文本文件。
我还尝试了 groupByKey 或 reduceByKey ,这样 RDD 中的每个元组都包含一个唯一的 ID 号作为键,以及由该 ID 号的新行分隔的一串组合数据行。我只想使用 foreach 遍历 RDD 一次来保存数据,但它不能将值作为 RDD
本质上,我想通过 ID 号将 RDD 拆分为多个 RDD,并将该 ID 号的值保存到它们自己的位置。