问题标签 [sequencefile]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

159 问题

0 投票

2 回答

10458 浏览

python - 将RDD保存为pyspark中的序列文件

我可以运行此脚本以文本格式保存文件，但是当我尝试运行 saveAsSequenceFile 时出错。如果有人知道如何将 RDD 保存为序列文件，请告诉我该过程。我尝试在“Learning Spark”以及 Spark 官方文档中寻找解决方案。

这运行成功

这失败了

错误：调用 z:org.apache.spark.api.python.PythonRDD.saveAsSequenceFile 时出错。: org.apache.spark.SparkException: 无法使用 java.lang.String 类型的 RDD 元素

这是数据：

2015-12-28T10:15:57.770

0 投票

1 回答

399 浏览

java - 为什么 SequenceFile writer 的 append 操作会用最后一个值覆盖所有值？

首先，考虑这个 CustomWriter 类：

我想要做的是使用Item类型对象的异步流。消费者有一个CustomWriter实例的引用。然后它为它收到的每个项目调用该CustomWriter#write方法。当流结束时，CustomWriter#close调用该方法来关闭编写器。

如您所见，我只创建了一个编写器，它开始附加到一个全新的文件。因此，毫无疑问，这不是原因。

我还应该注意，我目前正在MiniDFSCluster按照此处的说明在单元测试环境中运行它。如果我在非单元测试环境中运行它（即没有MiniDFSCluster），它似乎工作得很好。

当我尝试读回文件时，我看到的只是最后一次写入的Item对象 N 次（其中 N 是流中接收到的项目总数）。这是一个例子：

这将打印如下内容：

我做错了什么，或者这是使用的副作用MiniDFSCluster吗？

java hadoop apache-spark hdfs sequencefile

2016-01-08T19:43:21.270

0 投票

2 回答

743 浏览

scala - 缓存的 Spark RDD（从序列文件读取）具有无效条目，我该如何解决？

我正在使用 Spark(v1.6.1) 阅读 Hadoop 序列文件。缓存RDD后，RDD中的内容就失效了（最后一个条目重复了n几次）。

这是我的代码片段：

输出：

编辑：对于未来的访问者：如果您正在阅读我在上面的代码片段中所做的序列文件，请参阅接受的答案。一个简单的解决方法是制作 HadoopWritable实例的副本：

scala hadoop apache-spark hdfs sequencefile

2016-03-23T02:37:41.383

0 投票

1 回答

556 浏览

hadoop - HDFS 追加到 SequenceFile 很慢

附加到 SequenceFiles 似乎很慢。我们将文件夹（其中包含小文件）转换为 SequenceFiles，使用文件名作为键，内容作为值。但是，吞吐量非常低，大约为 2MB/s（每秒大约 2 到 3 个文件）。我们有澪。对于我们的目的而言，小文件和每秒最多 3 个文件的速度非常慢。

我们正在做的很简单：

关于如何加快速度的任何提示和想法？

hadoop hdfs sequencefile

2016-05-02T14:47:33.083

0 投票

0 回答

74 浏览

cluster-analysis - Hadoop Mahout 集群

我正在尝试在 Mahout 中应用树冠聚类。我已经将文本文件转换为序列文件。但我无法查看序列文件。无论如何，我想通过给出以下命令来应用树冠聚类，

hduser@ubuntu:/usr/local/mahout/trunk$ mahout canopy -i /user/Hadoop/mahout_seq/seqdata -o /user/Hadoop/clustered_data -t1 5 -t2 3

main(YarnChild.java:158) 我正在使用 VMware Ubuntu。我使用了一个包含段落的简单文本文件

cluster-analysis mahout hadoop2 sequencefile

2016-05-10T08:07:22.380

0 投票

0 回答

172 浏览

python - python hadoop：mapreduce作业不工作

我的 map reduce 程序正在处理 20 个视频，所以我在 hdfs 中上传了 20 个视频，当我开始在终端上执行 map reduce 代码时，它没有继续。当我运行此命令时，pydoop submit --upload-file-to-cache stage1.py stage1 path_directory stage1_output它停止了。终端上的登录如下。

我的hadoop配置文件是这样的：

hdfs-site.xml：

核心站点.xml：

谁能告诉我为什么我的 mapreduce 工作没有进行？提前致谢！

python hadoop mapreduce hdfs sequencefile

2016-05-30T13:18:02.980

0 投票

1 回答

738 浏览

hive - HDFS中sqoop导入的序列文件未在Hive中读取

我已经使用 --as-sequencefile 选项将一个表从 MySql 导入到 HDFS 中。然后，我创建了一个带有 STORED AS SEQUENCEFILE 子句和 LOCATION 子句的 Hive 表，它指向 Sqoop 导入的序列文件所在的 HDFS 位置。

Sqoop 导入命令：

Hive 表创建

当我现在尝试查询表时，它失败并出现异常

我错过了什么吗

hive hdfs sqoop sequencefile

2016-06-02T05:20:38.287

0 投票

1 回答

299 浏览

hadoop - 如何在 Flink 中使用 Hadoop 的 MapFileOutputFormat？

我在使用 Apache Flink 编写程序时遇到了困难。问题是我试图生成Hadoop 的 MapFile作为计算的结果，但 Scala 编译器抱怨类型不匹配。

为了说明这个问题，让我向您展示下面的代码片段，它试图生成两种输出：一种是Hadoop 的 SequenceFile，另一种是 MapFile。

如上所述，dataSet.output(mapfileOF) 导致 Scala 编译器抱怨如下：仅供参考，与 SequenceFile 相比，MapFile 需要一个更强的条件，即键必须是 WritableComparable。

在使用 Flink 编写应用程序之前，我使用 Spark 实现了它，如下所示，它运行良好（没有编译错误，运行良好，没有任何错误）。

hadoop apache-flink sequencefile

2016-06-02T09:23:49.257

0 投票

1 回答

1034 浏览

hadoop - 如何使用 mapreduce 从 hbase SequenceFile 中提取键值对？

我使用将Hbase Export utility toolhbase 表作为SequenceFile.

现在我想使用 mapreduce 作业来处理这个文件：

但它总是抛出这个异常：

我能做些什么来解决这个错误？

hadoop mapreduce hbase sequencefile

2016-06-15T04:10:34.123

0 投票

1 回答

1856 浏览

image - 在 HDFS 中保存图像文件 (jpeg,png) 的输入格式

我想在 HDFS（Hadoop 文件系统）上保存图像文件（如 jpeg、png 等）。我尝试了两种方法：

使用命令将图像文件按原样（即以相同格式）保存到 HDFS 中put。完整的命令是 : hadoop fs -put /home/a.jpeg /user/hadoop/。它被成功放置。
将这些图像文件转换为 Hadoop 的格式，然后使用命令Sequence File保存在 HDFS 中。put

我想知道应该使用哪种格式保存在 HDFS 中。
以及使用Sequence File格式的优点是什么。我知道的优点之一是它是可拆分的。还有其他吗？

image hadoop hdfs sequencefile

2016-07-14T11:22:11.403

1 2 3 4 5 6 7 8 9 10

问题标签 [sequencefile]

Reference