问题标签 [sequencefile]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
197 浏览

hadoop - hadoop 序列文件集合

reducer(带有 Text 键和 Iterable MapWritable 值)如何将其所有 Map 输出到序列文件以保留对其键的分组?例如,假设映射器将记录发送到减速器,如下所示:

我希望将序列文件写为:

我猜我需要创建一个实现 Writable 的自定义值输出类,但我不确定如何执行此操作,因为据我所知,Collections 并不真正适用于序列文件。我想这样做,以便下一个 map/reduce 阶段将读取与每个键关联的所有映射作为一个单元。

TIA,

0 投票
1 回答
1967 浏览

java - 在 Hadoop 中以序列文件格式写入/读取键/值对。

我有一个 mapreduce 程序,它的输出现在都在文本文件中。该程序的示例如下。我不明白该怎么做是以序列文件格式从减速器输出键/值对。 不,我不能使用 SequeceFileFormat 说明符,因为我使用的是 hadoop 0.20 库

那我该怎么办?下面是一个示例 wordcount 程序只是我的较大程序的一小部分。如果我知道如何用一个来做,我可以用剩下的来做。请帮忙。 字数减少器

}

现在这是运行它的主程序(我省略了映射器和其他不相关的细节)

我知道如何将文本文件转换为序列文件。我知道如何反其道而行之。这不是这里的问题。我找不到任何在 hadoop 程序中实际执行此操作的示例,这就是我被卡住的原因。

所以我想要的输出是让这个程序在序列文件而不是文本文件中写入键/值对

我还想知道如何使用 Mapper 读取序列文件

任何帮助将不胜感激。

0 投票
1 回答
1018 浏览

image-processing - 如何将 Hadoop 中的 SequenceFile 转换为 Image 文件?以下代码返回错误(bImageFromConvert 为 NULL)

/* 将序列文件转换为图像 正在使用的序列文件是从图像生成的;.png 格式 */

// 序列文件的key为图片名称,value为图片内容。

// 输出是一些字节数,这意味着 b 不是 NULL

// 以下行返回错误,因为 bImageFromConvert 为 NULL

0 投票
0 回答
610 浏览

hadoop - 将文本文件转换为序列文件

我是 Hadoop 和 Mahout 的新手。我想知道如何将包含一组向量的简单文本文件转换为序列文件。我已经尝试了 MR 框架并将 outputFormat 更改为 SequenceFileOutputFormat,我得到了以下输出

SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text��.�U_v�;�Vs�'�sample0 1 2 3 4 5sample1 6 7 8 9 10sample211 12 13 14 15sample316 17 18 19 20

这些模糊字符在二进制文件中,因此无法读取,但我的问题是如何获取 sample0 1 2 3 4 ,与 SequenceFile 格式(二进制格式)类似。

我相信可以通过更改映射器函数的输出来完成,但是我无法弄清楚。

-谢谢你的时间。

0 投票
2 回答
708 浏览

hadoop - 如果我将所有图像存储在 SequenceFile 中,我该如何设计映射器来处理它们的选择?

我确实有很多图像文件并且需要将它们存储在 HDFS 中,为了避免小文件问题,我计划使用序列文件存储我的图像文件。

我的问题是我需要创建一个 MapReduce 程序,它只处理这些文件的选择,如果我只打算处理一些文件,我认为从 SequenceFile 读取所有图像内容不是一个好主意它们,还可以添加更多图像,如果我为每组图像创建一个新的 SequenceFile,我怎么知道哪个 SequenceFile 包含我需要处理的图像?万一我知道在输入映射器之前手动过滤图像会让人不知所措。

请指教。谢谢!

0 投票
2 回答
1045 浏览

java - Mahout : Cannot convert into sequence file

I'm trying to convert some text files into mahout sequence files. So I do

But I always get this exception

I'm running Mahout 0.8 on Hadoop 2.2.0

Any ideas ?

0 投票
6 回答
26713 浏览

java - hadoop mapreduce:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z

我正在尝试从 map-reduce 作业中编写一个快速的块压缩序列文件。我正在使用 hadoop 2.0.0-cdh4.5.0 和 snappy-java 1.0.4.1

这是我的代码:

当我运行它时,我得到了这个:

如果我注释掉这些行,那么我的测试通过:

但是,我真的很想在我的序列文件中使用 snappy 压缩。有人可以向我解释我做错了什么吗?

0 投票
0 回答
407 浏览

javascript - 是否有用于 Hadoop 序列文件的 javascript 库

我尝试构建从用户收集二进制数据并将其存储到 Hadoop 序列文件的 nodejs 服务器。作为一个很好的教程,有使用 Hadoop 可执行文件的方法。

我的问题:是否有用于制作 Hadoop 序列文件的 javascript 库或片段来制作没有 Hadoop 可执行文件的序列文件。

早期的方法是基于Apache上的Flask和python-hadoop。但是Apache的进程和线程之间的并发性很难控制。因此,如果存在用于 javascript 的 Hadoop 序列文件库,我想移动 nodejs。

0 投票
1 回答
421 浏览

image - 从 Hadoop sequenceFile 获取原始图像时出错

我首先将所有图像打包到 Hadoop 序列文件中:

然后我想在reducer中从序列文件中取回我的原始图像:

但是图像没有正确获得,因为我有这个错误:

我的问题是如何从 hadoop 中的序列文件中获取原始图像?

0 投票
2 回答
387 浏览

java - 带有 Java 类的 Hive SequenceFile;只需传递给 toString()

我有一个 Hadoop SequenceFile,其中键是 IntWritable,值是实现 Writable 的任意 Java 类,并带有一个有趣的 toString() 方法。我很想制作一个两列 Hive 表,其中第一列是作为 int 的键,第二列是作为字符串或 varchar 的值。

我很想以最有品味和最简单的方式做到这一点:我不应该写 200 行代码来说“只需解码然后调用 toString()”。

我目前的解决方案是在将其输入 Hive 之前,做一个额外的 MapReduce 工作,以将其放入我想要的格式,但我发现这很令人反感,原因很明显。

谢谢!