问题标签 [sequencefile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mahout - 如何将mahout中生成的序列文件转换为文本文件
我一直在寻找解析器将生成的序列文件(.seq)转换为普通文本文件以了解中间输出。我很高兴知道是否有人遇到过如何做到这一点。
python - 如何在 Hadoop 中读取各个文件中的文件名和字数?
我正在尝试借助 python 的 dumbo 包从 hadoop 的序列文件中获取文件名。但它为我提供了某种标识符。我如何将其映射到文件名?
以下是我在 hadoop 系统上获取文件名的步骤:
步骤 1)生成序列文件
命令 :
步骤 2)通过 hadoop 在序列文件上运行 python 脚本
命令:
步骤 3)在本地目录中获取输出
命令:
dumbo_map_red.py 在哪里
请帮助我知道如何获取文件名。如果他们是 python 中的其他包,可以让我以这种方式工作,请告诉我..
java - 使用 MapReduce 将文本转换为序列会创建垃圾字符
我正在使用 MapReduce 将文本文件转换为序列文件并返回文本。我在每行的开头都得到了一些数字。我怎样才能删除它们或阻止它们进入我的输出。
例如文本:
转换后的序列文件:
从序列文件转换的文本
我想删除 0 15 28 个值。
我正在使用以下代码:
任何帮助表示赞赏。
java - 为什么 SequenceFile 被截断?
我正在学习Hadoop
,这个问题让我困惑了一段时间。基本上我正在写一个SequenceFile
磁盘然后读回来。但是,每次EOFException
阅读时我都会得到一个。更深入的看会发现,在写序列文件时,会被提前截断,而且总是发生在写索引 962 之后,而且文件的大小总是固定的 45056 字节。
我在 MacBook Pro 上使用 Java 8 和 Hadoop 2.5.1。事实上,我在另一台 Java 7 下的 Linux 机器上尝试了相同的代码,但同样的事情发生了。
我可以排除作者/阅读器没有正确关闭。我尝试使用带有显式 writer.close() 的旧式 try/catch,如代码所示,并且还使用了较新的 try-with-resource 方法。两者都不起作用。
任何帮助将不胜感激。
以下是我正在使用的代码:
java - Hadoop 附加到 Sequencefile
目前我使用以下代码附加到现有的SequenceFile:
如果序列文件不存在,一切正常,但是当文件存在时,Hadoop 在文件中间再次写入SequenceFile标头(SEQ ...),并且该文件对于 Hadoop 来说是不可读的。
我使用 Hadoop 2.6.0
hadoop - 在 hadoop 序列文件中添加的图像
我正在尝试在我的 hadoop 系统上运行 java 程序以将图像存储在序列文件中,然后尝试读取该序列文件。我的序列已创建,但图像数据未附加到序列文件中。
我正在尝试通过运行此命令来运行以下代码
sudo -u hdfs hadoop jar /usr/java_jar/ImageStorage.jar ImageStorage 12e2baa2ae0e455ac40015942b682c4b.jpg
请帮帮我。
java - hadoop 序列文件中的枚举集错误
我正在尝试使用元数据和 createflag 创建序列文件,但它给了我错误:
无法解析 createwriter 的方法
我是 Hadoop 和 Java 编程的新手。我在下面添加了代码。
我正在尝试在带有键的序列文件中添加多个图像。一旦序列文件被创建,如果它不存在并且如果它存在则附加图像数据。
hadoop - 使用 pyspark,在 hadoop 文件系统上读/写 2D 图像
我希望能够在 hdfs 文件系统上读取/写入图像并利用 hdfs 位置。
我有一组图像,其中每个图像由
- uint16 的二维数组
- 存储为 xml 文件的基本附加信息。
我想通过 hdfs 文件系统创建一个存档,并使用 spark 来分析存档。现在,我正在努力寻找通过 hdfs 文件系统存储数据的最佳方式,以便能够充分利用 spark+hdfs 结构。
据我了解,最好的方法是创建一个 sequenceFile 包装器。我有两个问题:
- 创建一个 sequenceFile 包装器是最好的方法吗?
- 有没有人有任何指向我可以用来开始的例子的指针?我一定不是第一个需要通过 spark 读取与 hdfs 上的文本文件不同的东西的人!
hadoop - hsync() 不适用于 SequenceFile 编写器
我有一个小程序,每秒将 10 条记录写入 HDFS 上的块压缩序列文件,然后每 5 分钟运行一次 sync() 以确保所有超过 5 分钟的内容都可用于处理。
由于我的代码有很多行,我只提取了重要的部分:
仅从日志来看,同步操作似乎按预期工作,但是 HDFS 上的文件仍然很小。一段时间后,可能会添加一些标头和一些事件,但甚至接近我 hsync() 的频率。文件关闭后,所有内容都会立即刷新。
每次预期同步后,还尝试手动检查文件内容以查看数据是否存在,但是,文件在此处也显示为空: hdfs dfs -text filename
是否有任何已知原因导致 writer.hsync() 不起作用,如果是,是否有任何解决方法?
此问题的进一步测试用例:
结果是在开始写入序列文件头时有一个 fsync,然后没有更多 fsync。一旦文件关闭,内容就会写入光盘。
java - Mahout:缺少创建序列文件的类
我正在按照mahout 站点上的说明将现有文件转换为序列文件:
我已将 mahout jar 包含在我的 maven 项目中:
但它不会写入文件。
我收到此错误:
经进一步调查,原因如下:
这表明我缺少一个罐子——有人知道是哪一个吗?