问题标签 [sequencefile]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2537 浏览

hadoop - 如何从 Hadoop 序列文件中提取数据?

Hadoop序列文件真的很奇怪。我将图像打包成序列文件并且无法恢复图像。我做了一些简单的测试。而且我发现使用序列文件之前和之后的字节大小甚至不一样。

输出显示我得到了相同的字节数,并且在我将图像写回本地磁盘后,我确定我得到了原始图像。但是为什么MD5值不一样呢?

我在这里做错了什么?

0 投票
2 回答
1388 浏览

oracle - 通过 Sqoop 将序列文件导出到 Oracle

我一直在尝试查找一些有关如何使用 Sqoop 将序列文件导出到 Oracle 的文档。那可能吗?

目前我有基于文本格式的文件(在 HDFS 中),我正在使用 Sqoop 将这些文件导出到一些 Oracle 的表中,并且工作正常。现在我想将文件的格式从文本更改为序列文件或其他文件(稍后是 Avro)。那么,如果我想使用 Sqoop 将不同的文件格式从 HDFS 导出到 Oracle,我需要做什么?

任何信息将不胜感激。

提前致谢。

0 投票
1 回答
340 浏览

hadoop - 在 Hadoop 2.0 中读取序列文件

我正在尝试在 hadoop 2.0 中读取一个序列文件,但我无法实现它。我正在使用以下代码,它在 hadoop 1.0 中运行良好。如果我遗漏了 2.0 版的内容,请告诉我

我在尝试调试时收到以下错误。

请帮忙。

注意:使用 Hadoop 2.0 API 读写序列文件 我参考了这个链接。但它没有用。

0 投票
2 回答
12059 浏览

scala - 在 Spark 中写入和读取原始字节数组 - 使用序列文件 SequenceFile

如何RDD[Array[Byte]]使用 Apache Spark 写入文件并再次读取?

0 投票
0 回答
79 浏览

mahout - 亚马逊 EMR 上的 SeqFilesFromDirectory() 错误

我正在尝试在 Amazon EMR 上运行一个简单的程序,它将目录中的文本文件转换为序列文件。该程序在我的本地机器上运行良好,但在 Amazon EMR 上出现以下错误。有人可以告诉我如何摆脱这个错误。

谢谢你。

线程“main”java.lang.IllegalArgumentException 中的异常:此文件系统对象 (hdfs://172.31.4.175:9000) 不支持访问请求路径.. 您可能在应该调用 FileSystem.get(conf)调用 FileSystem.get(uri, conf) 来获取支持您的路径的文件系统。

在 org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:384) 在 org.apache.hadoop.hdfs.DistributedFileSystem.getPathName(DistributedFileSystem.java:129) 在 org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus (DistributedFileSystem.java:513) 在 org.apache.mahout.text.SequenceFilesFromDirectory.runMapReduce(SequenceFilesFromDirectory.java:140) 在 org.apache.mahout.text.SequenceFilesFromDirectory.run(SequenceFilesFromDirectory.java:89) 在 org.apache。 hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:79) at com.gifts.text.SeqFileDirectory.main(SeqFileDirectory.java:36)在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) 在 sun.reflect.DelegatingMethodAccessorImpl。在 org.apache.hadoop.util.RunJar.main(RunJar.java:187) 的 java.lang.reflect.Method.invoke(Method.java:606) 处调用(DelegatingMethodAccessorImpl.java:43)*

0 投票
1 回答
1009 浏览

hadoop - 图像的 Avro 文件类型?

我试图……在 Hadoop 中解决这种情况。

什么是最好的文件格式 Avro 或 SequenceFile,以防在 HDFS 中存储图像并在之后使用 Python 处理它们?

SequenceFile 是面向键值的,所以我认为 Avro 文件会更好地工作?

0 投票
2 回答
1472 浏览

hadoop - 创建具有大 (>1GB) BytesWritable 值大小的 SequenceFile 时出现 NegativeArraySizeException

我尝试了不同的方法来创建一个大型 Hadoop 序列文件,只需一个短(<100 字节)键但一个大(> 1GB)值(BytesWriteable)。

以下示例适用于开箱即用:

https://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-jobclient/src/test/java/org/apache/ hadoop/mapred/BigMapOutput.java

它写入多个随机长度的键和值,总大小> 3GB。

但是,这不是我想要做的。所以我使用 hadoop 2.2.0 API 将其修改为:

当 fileSizeInMB>700MB 时,我收到如下错误:

我看到正在讨论这个错误,但没有看到任何解决方案。请注意,int(2^32) 可以大到 2GB,它不应该在 700MB 时失败。

如果您有其他替代方法来创建如此大值的 SequenceFile,请告知。我尝试了其他方法,例如 IOutils.read 从输入流到字节 [],我得到了堆大小或 OOME。

0 投票
0 回答
1500 浏览

scala - 读取 Spark 编写的 SequenceFile

我有一堆想要使用 Scalding 读取的序列文件,但遇到了一些麻烦。这是我的代码:

我在本地和 hdfs 上运行不同的堆栈跟踪???

我的本地堆栈跟踪是:

当我在 hdfs 上运行它时:

我听说读取使用烫伤在级联之外创建的序列文件可能存在问题。我不太明白为什么,我不知道如何解决这个问题。

我将不胜感激对此的解释和解决方案

0 投票
1 回答
378 浏览

hadoop - 在hadoop中对sequenceFile进行排序时出现classcastException?

我正在关注Hadoop-The definitive guide汤姆怀特的第三版。我已成功sequenceFile写入HDFS. 我按照作者在书中给出的示例进行了操作。但是当我尝试运行sort(第 138 页)时,我得到了classCastException. 堆栈跟踪在下面可用。

这里有什么问题,需要什么修复?

0 投票
1 回答
293 浏览

java - 增加 SequenceFileInputFormat 的拆分次数

我使用SequenceFileInputFormat作为地图的输入,其中键是文本,值是文本。有106 个文件,每个文件在 500 MB 到 750 MB 之间。我看到了我的日志,上面说分割数是 290

我想知道是否有办法增加拆分次数,因为我的工作需要大量时间来运行。谢谢您的帮助。