问题标签 [sequencefile]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
914 浏览

mahout - 如何将mahout中生成的序列文件转换为文本文件

我一直在寻找解析器将生成的序列文件(.seq)转换为普通文本文件以了解中间输出。我很高兴知道是否有人遇到过如何做到这一点。

0 投票
1 回答
184 浏览

python - 如何在 Hadoop 中读取各个文件中的文件名和字数?

我正在尝试借助 python 的 dumbo 包从 hadoop 的序列文件中获取文件名。但它为我提供了某种标识符。我如何将其映射到文件名?

以下是我在 hadoop 系统上获取文件名的步骤:

步骤 1)生成序列文件

命令 :

步骤 2)通过 hadoop 在序列文件上运行 python 脚本

命令:

步骤 3)在本地目录中获取输出

命令:

dumbo_map_red.py 在哪里

请帮助我知道如何获取文件名。如果他们是 python 中的其他包,可以让我以这种方式工作,请告诉我..

0 投票
2 回答
601 浏览

java - 使用 MapReduce 将文本转换为序列会创建垃圾字符

我正在使用 MapReduce 将文本文件转换为序列文件并返回文本。我在每行的开头都得到了一些数字。我怎样才能删除它们或阻止它们进入我的输出。

例如文本:

转换后的序列文件:

从序列文件转换的文本

我想删除 0 15 28 个值。

我正在使用以下代码:


任何帮助表示赞赏。

0 投票
3 回答
498 浏览

java - 为什么 SequenceFile 被截断?

我正在学习Hadoop,这个问题让我困惑了一段时间。基本上我正在写一个SequenceFile磁盘然后读回来。但是,每次EOFException阅读时我都会得到一个。更深入的看会发现,在写序列文件时,会被提前截断,而且总是发生在写索引 962 之后,而且文件的大小总是固定的 45056 字节。

我在 MacBook Pro 上使用 Java 8 和 Hadoop 2.5.1。事实上,我在另一台 Java 7 下的 Linux 机器上尝试了相同的代码,但同样的事情发生了。

我可以排除作者/阅读器没有正确关闭。我尝试使用带有显式 writer.close() 的旧式 try/catch,如代码所示,并且还使用了较新的 try-with-resource 方法。两者都不起作用。

任何帮助将不胜感激。

以下是我正在使用的代码:

0 投票
1 回答
1894 浏览

java - Hadoop 附加到 Sequencefile

目前我使用以下代码附加到现有的SequenceFile

如果序列文件不存在,一切正常,但是当文件存在时,Hadoop 在文件中间再次写入SequenceFile标头(SEQ ...),并且该文件对于 Hadoop 来说是不可读的。

我使用 Hadoop 2.6.0

0 投票
0 回答
739 浏览

hadoop - 在 hadoop 序列文件中添加的图像

我正在尝试在我的 hadoop 系统上运行 java 程序以将图像存储在序列文件中,然后尝试读取该序列文件。我的序列已创建,但图像数据未附加到序列文件中。

我正在尝试通过运行此命令来运行以下代码

sudo -u hdfs hadoop jar /usr/java_jar/ImageStorage.jar ImageStorage 12e2baa2ae0e455ac40015942b682c4b.jpg

请帮帮我。

0 投票
0 回答
136 浏览

java - hadoop 序列文件中的枚举集错误

我正在尝试使用元数据和 createflag 创建序列文件,但它给了我错误:

无法解析 createwriter 的方法

我是 Hadoop 和 Java 编程的新手。我在下面添加了代码。

我正在尝试在带有键的序列文件中添加多个图像。一旦序列文件被创建,如果它不存在并且如果它存在则附加图像数据。

0 投票
1 回答
6548 浏览

hadoop - 使用 pyspark,在 h​​adoop 文件系统上读/写 2D 图像

我希望能够在 hdfs 文件系统上读取/写入图像并利用 hdfs 位置。

我有一组图像,其中每个图像由

  • uint16 的二维数组
  • 存储为 xml 文件的基本附加信息。

我想通过 hdfs 文件系统创建一个存档,并使用 spark 来分析存档。现在,我正在努力寻找通过 hdfs 文件系统存储数据的最佳方式,以便能够充分利用 spark+hdfs 结构。

据我了解,最好的方法是创建一个 sequenceFile 包装器。我有两个问题:

  • 创建一个 sequenceFile 包装器是最好的方法吗?
  • 有没有人有任何指向我可以用来开始的例子的指针?我一定不是第一个需要通过 spark 读取与 hdfs 上的文本文件不同的东西的人!
0 投票
1 回答
629 浏览

hadoop - hsync() 不适用于 SequenceFile 编写器

我有一个小程序,每秒将 10 条记录写入 HDFS 上的块压缩序列文件,然后每 5 分钟运行一次 sync() 以确保所有超过 5 分钟的内容都可用于处理。

由于我的代码有很多行,我只提取了重要的部分:

仅从日志来看,同步操作似乎按预期工作,但是 HDFS 上的文件仍然很小。一段时间后,可能会添加一些标头和一些事件,但甚至接近我 hsync() 的频率。文件关闭后,所有内容都会立即刷新。

每次预期同步后,还尝试手动检查文件内容以查看数据是否存在,但是,文件在此处也显示为空: hdfs dfs -text filename

是否有任何已知原因导致 writer.hsync() 不起作用,如果是,是否有任何解决方法?

此问题的进一步测试用例:

结果是在开始写入序列文件头时有一个 fsync,然后没有更多 fsync。一旦文件关闭,内容就会写入光盘。

0 投票
1 回答
202 浏览

java - Mahout:缺少创建序列文件的类

我正在按照mahout 站点上的说明将现有文件转换为序列文件:

我已将 mahout jar 包含在我的 maven 项目中:

但它不会写入文件。

我收到此错误:

经进一步调查,原因如下:

这表明我缺少一个罐子——有人知道是哪一个吗?