问题标签 [sequencefile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将RDD保存为pyspark中的序列文件
我可以运行此脚本以文本格式保存文件,但是当我尝试运行 saveAsSequenceFile 时出错。如果有人知道如何将 RDD 保存为序列文件,请告诉我该过程。我尝试在“Learning Spark”以及 Spark 官方文档中寻找解决方案。
这运行成功
这失败了
错误:调用 z:org.apache.spark.api.python.PythonRDD.saveAsSequenceFile 时出错。: org.apache.spark.SparkException: 无法使用 java.lang.String 类型的 RDD 元素
这是数据:
java - 为什么 SequenceFile writer 的 append 操作会用最后一个值覆盖所有值?
首先,考虑这个 CustomWriter 类:
我想要做的是使用Item
类型对象的异步流。消费者有一个CustomWriter
实例的引用。然后它为它收到的每个项目调用该CustomWriter#write
方法。当流结束时,CustomWriter#close
调用该方法来关闭编写器。
如您所见,我只创建了一个编写器,它开始附加到一个全新的文件。因此,毫无疑问,这不是原因。
我还应该注意,我目前正在MiniDFSCluster
按照此处的说明在单元测试环境中运行它。如果我在非单元测试环境中运行它(即没有MiniDFSCluster
),它似乎工作得很好。
当我尝试读回文件时,我看到的只是最后一次写入的Item
对象 N 次(其中 N 是流中接收到的项目总数)。这是一个例子:
这将打印如下内容:
我做错了什么,或者这是使用的副作用MiniDFSCluster
吗?
scala - 缓存的 Spark RDD(从序列文件读取)具有无效条目,我该如何解决?
我正在使用 Spark(v1.6.1) 阅读 Hadoop 序列文件。缓存RDD后,RDD中的内容就失效了(最后一个条目重复了n
几次)。
这是我的代码片段:
输出:
编辑:对于未来的访问者:如果您正在阅读我在上面的代码片段中所做的序列文件,请参阅接受的答案。一个简单的解决方法是制作 HadoopWritable
实例的副本:
hadoop - HDFS 追加到 SequenceFile 很慢
附加到 SequenceFiles 似乎很慢。我们将文件夹(其中包含小文件)转换为 SequenceFiles,使用文件名作为键,内容作为值。但是,吞吐量非常低,大约为 2MB/s(每秒大约 2 到 3 个文件)。我们有澪。对于我们的目的而言,小文件和每秒最多 3 个文件的速度非常慢。
我们正在做的很简单:
关于如何加快速度的任何提示和想法?
cluster-analysis - Hadoop Mahout 集群
我正在尝试在 Mahout 中应用树冠聚类。我已经将文本文件转换为序列文件。但我无法查看序列文件。无论如何,我想通过给出以下命令来应用树冠聚类,
hduser@ubuntu:/usr/local/mahout/trunk$ mahout canopy -i /user/Hadoop/mahout_seq/seqdata -o /user/Hadoop/clustered_data -t1 5 -t2 3
main(YarnChild.java:158) 我正在使用 VMware Ubuntu。我使用了一个包含段落的简单文本文件
python - python hadoop:mapreduce作业不工作
我的 map reduce 程序正在处理 20 个视频,所以我在 hdfs 中上传了 20 个视频,当我开始在终端上执行 map reduce 代码时,它没有继续。当我运行此命令时,pydoop submit --upload-file-to-cache stage1.py stage1 path_directory stage1_output
它停止了。终端上的登录如下。
我的hadoop配置文件是这样的:
hdfs-site.xml:
核心站点.xml:
谁能告诉我为什么我的 mapreduce 工作没有进行?提前致谢!
hive - HDFS中sqoop导入的序列文件未在Hive中读取
我已经使用 --as-sequencefile 选项将一个表从 MySql 导入到 HDFS 中。然后,我创建了一个带有 STORED AS SEQUENCEFILE 子句和 LOCATION 子句的 Hive 表,它指向 Sqoop 导入的序列文件所在的 HDFS 位置。
Sqoop 导入命令:
Hive 表创建
当我现在尝试查询表时,它失败并出现异常
我错过了什么吗
hadoop - 如何在 Flink 中使用 Hadoop 的 MapFileOutputFormat?
我在使用 Apache Flink 编写程序时遇到了困难。问题是我试图生成Hadoop 的 MapFile作为计算的结果,但 Scala 编译器抱怨类型不匹配。
为了说明这个问题,让我向您展示下面的代码片段,它试图生成两种输出:一种是Hadoop 的 SequenceFile,另一种是 MapFile。
如上所述,dataSet.output(mapfileOF) 导致 Scala 编译器抱怨如下:
仅供参考,与 SequenceFile 相比,MapFile 需要一个更强的条件,即键必须是 WritableComparable。
在使用 Flink 编写应用程序之前,我使用 Spark 实现了它,如下所示,它运行良好(没有编译错误,运行良好,没有任何错误)。
hadoop - 如何使用 mapreduce 从 hbase SequenceFile 中提取键值对?
我使用 将Hbase Export utility tool
hbase 表作为SequenceFile
.
现在我想使用 mapreduce 作业来处理这个文件:
但它总是抛出这个异常:
我能做些什么来解决这个错误?
image - 在 HDFS 中保存图像文件 (jpeg,png) 的输入格式
我想在 HDFS(Hadoop 文件系统)上保存图像文件(如 jpeg、png 等)。我尝试了两种方法:
- 使用命令将图像文件按原样(即以相同格式)保存到 HDFS 中
put
。完整的命令是 :hadoop fs -put /home/a.jpeg /user/hadoop/
。它被成功放置。 - 将这些图像文件转换为 Hadoop 的格式,然后使用命令
Sequence File
保存在 HDFS 中。put
我想知道应该使用哪种格式保存在 HDFS 中。
以及使用Sequence File
格式的优点是什么。我知道的优点之一是它是可拆分的。还有其他吗?