问题标签 [sequencefile]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
10458 浏览

python - 将RDD保存为pyspark中的序列文件

我可以运行此脚本以文本格式保存文件,但是当我尝试运行 saveAsSequenceFile 时出错。如果有人知道如何将 RDD 保存为序列文件,请告诉我该过程。我尝试在“Learning Spark”以及 Spark 官方文档中寻找解决方案。

这运行成功

这失败了

错误:调用 z:org.apache.spark.api.python.PythonRDD.saveAsSequenceFile 时出错。: org.apache.spark.SparkException: 无法使用 java.lang.String 类型的 RDD 元素

这是数据:

0 投票
1 回答
399 浏览

java - 为什么 SequenceFile writer 的 append 操作会用最后一个值覆盖所有值?

首先,考虑这个 CustomWriter 类:

我想要做的是使用Item类型对象的异步流。消费者有一个CustomWriter实例的引用。然后它为它收到的每个项目调用该CustomWriter#write方法。当流结束时,CustomWriter#close调用该方法来关闭编写器。

如您所见,我只创建了一个编写器,它开始附加到一个全新的文件。因此,毫无疑问,不是原因。

我还应该注意,我目前正在MiniDFSCluster按照此处的说明在单元测试环境中运行它。如果我在非单元测试环境中运行它(即没有MiniDFSCluster),它似乎工作得很好。

当我尝试读回文件时,我看到的只是最后一次写入的Item对象 N 次(其中 N 是流中接收到的项目总数)。这是一个例子:

这将打印如下内容:

我做错了什么,或者这是使用的副作用MiniDFSCluster吗?

0 投票
2 回答
743 浏览

scala - 缓存的 Spark RDD(从序列文件读取)具有无效条目,我该如何解决?

我正在使用 Spark(v1.6.1) 阅读 Hadoop 序列文件。缓存RDD后,RDD中的内容就失效了(最后一个条目重复了n几次)。

这是我的代码片段:

输出:


编辑:对于未来的访问者:如果您正在阅读我在上面的代码片段中所做的序列文件,请参阅接受的答案。一个简单的解决方法是制作 HadoopWritable实例的副本:

0 投票
1 回答
556 浏览

hadoop - HDFS 追加到 SequenceFile 很慢

附加到 SequenceFiles 似乎很慢。我们将文件夹(其中包含小文件)转换为 SequenceFiles,使用文件名作为键,内容作为值。但是,吞吐量非常低,大约为 2MB/s(每秒大约 2 到 3 个文件)。我们有澪。对于我们的目的而言,小文件和每秒最多 3 个文件的速度非常慢。

我们正在做的很简单:

关于如何加快速度的任何提示和想法?

0 投票
0 回答
74 浏览

cluster-analysis - Hadoop Mahout 集群

我正在尝试在 Mahout 中应用树冠聚类。我已经将文本文件转换为序列文件。但我无法查看序列文件。无论如何,我想通过给出以下命令来应用树冠聚类,

hduser@ubuntu:/usr/local/mahout/trunk$ mahout canopy -i /user/Hadoop/mahout_seq/seqdata -o /user/Hadoop/clustered_data -t1 5 -t2 3

main(YarnChild.java:158) 我正在使用 VMware Ubuntu。我使用了一个包含段落的简单文本文件

0 投票
0 回答
172 浏览

python - python hadoop:mapreduce作业不工作

我的 map reduce 程序正在处理 20 个视频,所以我在 hdfs 中上传了 20 个视频,当我开始在终端上执行 map reduce 代码时,它没有继续。当我运行此命令时,pydoop submit --upload-file-to-cache stage1.py stage1 path_directory stage1_output它停止了。终端上的登录如下。

我的hadoop配置文件是这样的:

hdfs-site.xml:

核心站点.xml:

谁能告诉我为什么我的 mapreduce 工作没有进行?提前致谢!

0 投票
1 回答
738 浏览

hive - HDFS中sqoop导入的序列文件未在Hive中读取

我已经使用 --as-sequencefile 选项将一个表从 MySql 导入到 HDFS 中。然后,我创建了一个带有 STORED AS SEQUENCEFILE 子句和 LOCATION 子句的 Hive 表,它指向 Sqoop 导入的序列文件所在的 HDFS 位置。

Sqoop 导入命令:

Hive 表创建

当我现在尝试查询表时,它失败并出现异常

我错过了什么吗

0 投票
1 回答
299 浏览

hadoop - 如何在 Flink 中使用 Hadoop 的 MapFileOutputFormat?

我在使用 Apache Flink 编写程序时遇到了困难。问题是我试图生成Hadoop 的 MapFile作为计算的结果,但 Scala 编译器抱怨类型不匹配。

为了说明这个问题,让我向您展示下面的代码片段,它试图生成两种输出:一种是Hadoop 的 SequenceFile,另一种是 MapFile。

如上所述,dataSet.output(mapfileOF) 导致 Scala 编译器抱怨如下: 在此处输入图像描述 仅供参考,与 SequenceFile 相比,MapFile 需要一个更强的条件,即键必须是 WritableComparable。

在使用 Flink 编写应用程序之前,我使用 Spark 实现了它,如下所示,它运行良好(没有编译错误,运行良好,没有任何错误)。

0 投票
1 回答
1034 浏览

hadoop - 如何使用 mapreduce 从 hbase SequenceFile 中提取键值对?

我使用 将Hbase Export utility toolhbase 表作为SequenceFile.

现在我想使用 mapreduce 作业来处理这个文件:

但它总是抛出这个异常:

我能做些什么来解决这个错误?

0 投票
1 回答
1856 浏览

image - 在 HDFS 中保存图像文件 (jpeg,png) 的输入格式

我想在 HDFS(Hadoop 文件系统)上保存图像文件(如 jpeg、png 等)。我尝试了两种方法:

  1. 使用命令将图像文件按原样(即以相同格式)保存到 HDFS 中put。完整的命令是 : hadoop fs -put /home/a.jpeg /user/hadoop/。它被成功放置。
  2. 将这些图像文件转换为 Hadoop 的格式,然后使用命令Sequence File保存在 HDFS 中。put

我想知道应该使用哪种格式保存在 HDFS 中。
以及使用Sequence File格式的优点是什么。我知道的优点之一是它是可拆分的。还有其他吗?