问题标签 [rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 使用 org.apache.hadoop.conf.Configuration 设置 Spark 记录分隔符时操作 RDD 失败
我想用 Spark 处理一个大文本文件“mydata.txt”(实际文件大小约为 30GB)。它的记录分隔符是“\ |” 后跟“\n”。因为加载文件的默认记录分隔符(通过“sc.textFile”)是“\n”,所以我将org.apache.hadoop.conf.Configuration的“textinputformat.record.delimiter”属性设置为“\|\n”指定记录分隔符:
接下来我在spark-shell中执行了如下代码:</p>
到目前为止,一切都很好。然而,
为什么我不能操作 RDD “数据”,而使用时一切都很好sc.textFile("mydata.txt")
?以及如何解决?
amazon-s3 - 将 RDD 保存到文件会导致部件的 _temporary 路径
我在 Spark 中有要保存到 S3 的数据。推荐的保存方法是使用saveAsTextFile
SparkContext上的方法,成功了。我希望数据将保存为“部分”。
我的问题是,当我去 S3 查看我的数据时,它已保存在一个文件夹名称_temporary
中,带有一个子文件夹0
,然后每个部分或任务都保存在自己的文件夹中。
例如,
导致文件喜欢
等等。我期待并看到过类似的东西
这是一个配置设置,还是我需要“提交”保存来解析临时文件?
scala - Spark 广播报错:超过 spark.akka.frameSize 考虑使用广播
我有一个名为“edges”的大数据
当我在独立模式下工作时,我能够收集、计数和保存这个文件。现在,在集群上,我收到了这个错误
与 .saveAsTextFile("edges") 相同
这是来自火花壳。我尝试使用选项
--driver-java-options "-Dspark.akka.frameSize=15"
但是当我这样做时,它只是无限期地挂起。任何帮助,将不胜感激。
** 编辑 **
我的独立模式是 Spark 1.1.0,我的集群是 Spark 1.0.1。
此外,当我对 RDD 进行计数、收集或保存时会发生挂起,但定义它或对其进行过滤器工作得很好。
join - 修改RDD的key
我的 RDD 具有以下结构-
我用一些偏移值运行两个过滤器操作 -
过滤器 Op1:
偏移量 = 0,时间范围从 320 到 324
过滤所有值从 (320-0) 到 (324-0) 的键
过滤RDD1:
过滤器 Op2:
偏移量 = 6,时间范围从 320 到 324
所有值从 (320-6):314 到 (324-6):318 的键都被过滤
过滤RDD2:
行动
我想将FilteredRDD1 中的 Val1 与 FilteredRDD2 中的 Val2相乘。
我可以想到一个选项,其中 -
使用偏移量修改FilteredRDD2的key,使两个FilteredRDD的key相同
对未修改的 FilteredRDD 和修改后的 FilteredRDD 进行连接
对连接的 RDD 执行 map 操作,并将 Val1 与 Val2 相乘
任何其他更好的选择,以便更少的洗牌和更少的中间操作。
蒂亚!
scala - 在 groupBy 之后取 top N 并将它们视为 RDD
我想N
在 groupByKey of 之后获取顶级项目并将(在下面)RDD
的类型转换为值所在的位置topNPerGroup
RDD[(String, Int)]
List[Int]
flatten
data
是_
N
每组的前几项计算如下:
结果是
由
如果我实现了,topNPerGroup.collect.foreach(println)
将产生(预期的结果!)
sql - 更新查询架构RDD
我在 scala 中使用 schemaRDD 进行一些数据转换。当像这个例子一样使用更新查询时,UPDATE users SET email = 'abc@example.com' WHERE ID = 1
我收到以下错误:
java.lang.RuntimeException: [1.1] failure: ''UNCACHE'' expected but identifier UPDATE found
apache-spark - 使用 Apache-Spark,根据条件减少或折叠 RDD
我正在使用 Apache Spark 和 Scala。我有一个 String,Int 的 RDD
现在我通过 Key 减少了 RDD,但我想添加另一个功能来减少相似的单词。
我虽然使用 Levenshtein 距离、欧几里得距离或余弦距离。
那么,我怎样才能应用这些功能之一来减少我的 RDD?
例子:
承认相似度算法有效,我怎样才能获得减少的 RDD,如:
我试过类似的东西:
java - Spark-将 JavaRDD 保存到 Cassandra
此链接显示了一种以这种方式保存JavaRDD
到Cassandra
的方法:
但com.datastax.spark.connector.CassandraJavaUtil.*
似乎已弃用。更新后的 API 应该是:
有人可以告诉我一些代码来存储JavaRDD
使用Cassandra
上面更新的 API 吗?
arrays - 对向量/数组的 RDD 应用过滤器[Double]
假设我有一个 Array[Double] 的 RDD,有 n 列。我想在最后一列上应用过滤器(例如,值 > 某个常量)。
- Scala/Apache Spark 中的语法是什么?
- 如果我有一个向量的 RDD,是否可以做同样的事情?
- 如果我可以选择其中一个(即 Array[Double] 的 RDD 和 Vectors 的 RDD),我应该选择哪一个才能获得更高效/更快的代码?
scala - 如何在scala中对数据集进行转置?
我想在 scala 中对数据集进行转置?
我的 csv 文件是,
我需要结果,