问题标签 [sequencefile]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

159 问题

0 投票

2 回答

914 浏览

mahout - 如何将mahout中生成的序列文件转换为文本文件

我一直在寻找解析器将生成的序列文件（.seq）转换为普通文本文件以了解中间输出。我很高兴知道是否有人遇到过如何做到这一点。

mahout sequencefile

2014-12-24T10:24:31.047

0 投票

1 回答

184 浏览

python - 如何在 Hadoop 中读取各个文件中的文件名和字数？

我正在尝试借助 python 的 dumbo 包从 hadoop 的序列文件中获取文件名。但它为我提供了某种标识符。我如何将其映射到文件名？

以下是我在 hadoop 系统上获取文件名的步骤：

步骤 1)生成序列文件

命令：

步骤 2)通过 hadoop 在序列文件上运行 python 脚本

命令：

步骤 3)在本地目录中获取输出

命令：

dumbo_map_red.py 在哪里

请帮助我知道如何获取文件名。如果他们是 python 中的其他包，可以让我以这种方式工作，请告诉我..

2015-01-05T07:14:23.117

0 投票

2 回答

601 浏览

java - 使用 MapReduce 将文本转换为序列会创建垃圾字符

我正在使用 MapReduce 将文本文件转换为序列文件并返回文本。我在每行的开头都得到了一些数字。我怎样才能删除它们或阻止它们进入我的输出。

例如文本：

转换后的序列文件：

从序列文件转换的文本

我想删除 0 15 28 个值。

我正在使用以下代码：

任何帮助表示赞赏。

java hadoop mapreduce hadoop2 sequencefile

2015-01-09T11:26:34.647

0 投票

3 回答

498 浏览

java - 为什么 SequenceFile 被截断？

我正在学习Hadoop，这个问题让我困惑了一段时间。基本上我正在写一个SequenceFile磁盘然后读回来。但是，每次EOFException阅读时我都会得到一个。更深入的看会发现，在写序列文件时，会被提前截断，而且总是发生在写索引 962 之后，而且文件的大小总是固定的 45056 字节。

我在 MacBook Pro 上使用 Java 8 和 Hadoop 2.5.1。事实上，我在另一台 Java 7 下的 Linux 机器上尝试了相同的代码，但同样的事情发生了。

我可以排除作者/阅读器没有正确关闭。我尝试使用带有显式 writer.close() 的旧式 try/catch，如代码所示，并且还使用了较新的 try-with-resource 方法。两者都不起作用。

任何帮助将不胜感激。

以下是我正在使用的代码：

java hadoop sequencefile

2015-01-13T07:24:41.630

0 投票

1 回答

1894 浏览

java - Hadoop 附加到 Sequencefile

目前我使用以下代码附加到现有的SequenceFile：

如果序列文件不存在，一切正常，但是当文件存在时，Hadoop 在文件中间再次写入SequenceFile标头（SEQ ...），并且该文件对于 Hadoop 来说是不可读的。

我使用 Hadoop 2.6.0

java hadoop sequencefile

2015-02-03T16:53:31.577

0 投票

0 回答

739 浏览

hadoop - 在 hadoop 序列文件中添加的图像

我正在尝试在我的 hadoop 系统上运行 java 程序以将图像存储在序列文件中，然后尝试读取该序列文件。我的序列已创建，但图像数据未附加到序列文件中。

我正在尝试通过运行此命令来运行以下代码

sudo -u hdfs hadoop jar /usr/java_jar/ImageStorage.jar ImageStorage 12e2baa2ae0e455ac40015942b682c4b.jpg

请帮帮我。

hadoop mapreduce hdfs sequencefile

2015-02-06T10:38:34.153

0 投票

0 回答

136 浏览

java - hadoop 序列文件中的枚举集错误

我正在尝试使用元数据和 createflag 创建序列文件，但它给了我错误：

无法解析 createwriter 的方法

我是 Hadoop 和 Java 编程的新手。我在下面添加了代码。

我正在尝试在带有键的序列文件中添加多个图像。一旦序列文件被创建，如果它不存在并且如果它存在则附加图像数据。

java hadoop mapreduce sequencefile

2015-02-09T15:46:33.933

0 投票

1 回答

6548 浏览

hadoop - 使用 pyspark，在 hadoop 文件系统上读/写 2D 图像

我希望能够在 hdfs 文件系统上读取/写入图像并利用 hdfs 位置。

我有一组图像，其中每个图像由

uint16 的二维数组
存储为 xml 文件的基本附加信息。

我想通过 hdfs 文件系统创建一个存档，并使用 spark 来分析存档。现在，我正在努力寻找通过 hdfs 文件系统存储数据的最佳方式，以便能够充分利用 spark+hdfs 结构。

据我了解，最好的方法是创建一个 sequenceFile 包装器。我有两个问题：

创建一个 sequenceFile 包装器是最好的方法吗？
有没有人有任何指向我可以用来开始的例子的指针？我一定不是第一个需要通过 spark 读取与 hdfs 上的文本文件不同的东西的人！

hadoop apache-spark sequencefile pyspark

2015-02-25T22:46:48.757

0 投票

1 回答

629 浏览

hadoop - hsync() 不适用于 SequenceFile 编写器

我有一个小程序，每秒将 10 条记录写入 HDFS 上的块压缩序列文件，然后每 5 分钟运行一次 sync() 以确保所有超过 5 分钟的内容都可用于处理。

由于我的代码有很多行，我只提取了重要的部分：

仅从日志来看，同步操作似乎按预期工作，但是 HDFS 上的文件仍然很小。一段时间后，可能会添加一些标头和一些事件，但甚至接近我 hsync() 的频率。文件关闭后，所有内容都会立即刷新。

每次预期同步后，还尝试手动检查文件内容以查看数据是否存在，但是，文件在此处也显示为空： hdfs dfs -text filename

是否有任何已知原因导致 writer.hsync() 不起作用，如果是，是否有任何解决方法？

此问题的进一步测试用例：

结果是在开始写入序列文件头时有一个 fsync，然后没有更多 fsync。一旦文件关闭，内容就会写入光盘。

hadoop hdfs sequencefile

2015-03-09T15:53:46.207

0 投票

1 回答

202 浏览

java - Mahout：缺少创建序列文件的类

我正在按照mahout 站点上的说明将现有文件转换为序列文件：

我已将 mahout jar 包含在我的 maven 项目中：

但它不会写入文件。

我收到此错误：

经进一步调查，原因如下：

这表明我缺少一个罐子——有人知道是哪一个吗？

java hadoop mahout mahout-recommender sequencefile

2015-03-11T14:06:10.913

1 2 3 4 5 6 7 8 9 10

问题标签 [sequencefile]

Reference