问题标签 [rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 在 reduceByKey RDD 中获取值的数量
当调用 reduceByKey 操作时,它正在接收特定键的值列表。我的问题是:
- 它接收到的值列表是按排序顺序排列的吗?
- 是否有可能知道它收到了多少值?
- 我正在尝试计算reduceByKey 中键值列表的第一个四分位数。这可以在reduceByKey中做到吗?
scala - 并行处理 Spark 列
我一直在玩 Spark,我设法让它来处理我的数据。我的数据由平面分隔的文本文件组成,由 50 列和大约 2000 万行组成。我有可以处理每一列的 scala 脚本。
在并行处理方面,我知道 RDD 操作在多个节点上运行。因此,每次我处理一列时,它们都会并行处理,但列本身是按顺序处理的。
一个简单的例子:如果我的数据是 5 列文本分隔文件并且每列包含文本,我想对每列进行字数统计。我会做:
尽管每列的操作是并行运行的,但列本身是按顺序处理的(我知道的措辞不好。对不起!)。换句话说,在第 1 列完成后处理第 2 列。第 3 列在第 1 列和第 2 列完成后处理,依此类推。
我的问题是:有没有一次处理多个列?如果你知道一种方法,cor一个教程,你介意与我分享吗?
谢谢你!!
apache-spark - 如何将 JavaPairRDD 转换为 HashMap
我有一个包含键值对的 JavaPairDStream。我需要将它转换为 HashMap。我已经尝试通过在其上调用“collectAsMap()”函数及其工作来对普通 JavaPairRDD 执行相同操作,但是当我尝试在 DStream 上执行相同操作时,它失败了。
我试图通过使用“foreachRDD”函数将“JavaPairDStream”转换为“JavaPairRDD”,然后在 JavaPairRDD 上使用“collectAsMap()”函数来实现相同的目的。
它没有给出任何编译错误,但是当我运行程序时它会失败并抛出如下错误。
我不确定我的方法是否正确。普通的“JavaPairRDD”和由“foreachRDD”函数创建的有什么区别吗?为什么相同的方法适用于普通的“JavaPairRDD”,但当我将其应用于通过在 JavaPairDStream 上应用“foreachRDD”函数创建的“JavaPairRDD”时会失败。如果我在任何地方出错,请告诉我。另外,如果还有其他方法,请在此处发布。谢谢。
regex - 如何使用 Spark 进行 RegExp 文件?
我UDP_file.txt
包含:
我需要做的是:
- 加载文件,
- 正则表达式它,
- 行比匹配模式保存在文件'good_records.txt'中,
- 与模式不匹配的行保存在文件“bad_records.txt”中
.
当我在一行上测试模式时,它可以工作:
或者
但我不知道如何在加载文件的每一行上使用它。
你能帮我吗?我将不胜感激任何建议。
帕维尔
apache-spark - 如何对两个模式 RDD 执行连接操作?
我有两个 SchemaRDD,我想对它们执行连接操作(与 SQL 连接相同)。请帮我。
apache-spark - Spark:如何指定持有 RDD 的 executor 数量?
我试图通过将 RDD 分配给尽可能多的执行者来最大化并行性。据我所知,用户可以使用重新分区、合并或并行化来更改分区数。但是我无法找到一种方法来更改执行者的数量来保存分区。任何人都可以暗示如何做到这一点吗?
scala - Spark scala RDD遍历
我如何使用 Spark scala 遍历 RDD。我想用关联的键打印 Seq 中存在的每个值
我尝试了以下代码。
scala - Spark中的过滤器功能
我在 Spark 中用 scala 编写了以下代码:
(inactiveIDs 是 a RDD[(Int, Seq[String])]
,persons 是 a Broadcast[RDD[(Int, Seq[Event])]]
,Event 是我创建的一个类)
和以下错误:
有任何想法吗?
python - 在 python 中使用 foreach 和 Spark RDD
我正在尝试在集群上运行一个非常大的 RDD 并将其写入 .csv。它是如此之大以至于 .collect() 中断,所以我想将 RDD 保存到每个节点上的片段中,然后以某种方式将它们组合在一起,因为顺序无关紧要。我的想法是将 foreach 与 CSV 打印机功能一起使用,以便每个部分都写入它的值,然后我可以手动将这些部分收集在一起,也许是通过 FTP。
我是一个有一定经验的 Spark 用户,但到目前为止,我从来没有能够让 RDD 的 foreach 方法做任何有用的事情。当我尝试运行文档中给出的示例时,
我的控制台上什么也没有。我相信这是因为“打印”是在单独的节点上执行的,而不是控制台所在的名称节点。不过,在那种情况下,我真的看不出 foreach 函数有什么意义!
如何在不首先调用 collect() 函数的情况下将我的 for each 的结果返回到名称节点?
注意。我也愿意使用 saveAsTextFile() RDD 函数,但我还是无法让它工作!它似乎创建了一个文件夹而不是文本文件,尽管这可能是因为它们也存在于每个节点上而不是集中存在?
apache-spark - 为什么在 DStreams 上运行 SparkSQL 会为 org.apache.spark.rdd.ShuffledRDDPartition 提供 ClassCastException?
在 DStream 中的每个 RDD 上运行 SparkSQL 时出现 ClassCastException。