问题标签 [sequencefile]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

159 问题

0 投票

1 回答

2537 浏览

hadoop - 如何从 Hadoop 序列文件中提取数据？

Hadoop序列文件真的很奇怪。我将图像打包成序列文件并且无法恢复图像。我做了一些简单的测试。而且我发现使用序列文件之前和之后的字节大小甚至不一样。

输出显示我得到了相同的字节数，并且在我将图像写回本地磁盘后，我确定我得到了原始图像。但是为什么MD5值不一样呢？

我在这里做错了什么？

2014-04-22T05:57:03.340

0 投票

2 回答

1388 浏览

oracle - 通过 Sqoop 将序列文件导出到 Oracle

我一直在尝试查找一些有关如何使用 Sqoop 将序列文件导出到 Oracle 的文档。那可能吗？

目前我有基于文本格式的文件（在 HDFS 中），我正在使用 Sqoop 将这些文件导出到一些 Oracle 的表中，并且工作正常。现在我想将文件的格式从文本更改为序列文件或其他文件（稍后是 Avro）。那么，如果我想使用 Sqoop 将不同的文件格式从 HDFS 导出到 Oracle，我需要做什么？

任何信息将不胜感激。

提前致谢。

oracle hadoop sqoop hcatalog sequencefile

2014-05-19T15:18:43.693

0 投票

1 回答

340 浏览

hadoop - 在 Hadoop 2.0 中读取序列文件

我正在尝试在 hadoop 2.0 中读取一个序列文件，但我无法实现它。我正在使用以下代码，它在 hadoop 1.0 中运行良好。如果我遗漏了 2.0 版的内容，请告诉我

我在尝试调试时收到以下错误。

请帮忙。

注意：使用 Hadoop 2.0 API 读写序列文件我参考了这个链接。但它没有用。

hadoop hadoop-yarn sequencefile

2014-05-29T06:42:30.703

0 投票

2 回答

12059 浏览

scala - 在 Spark 中写入和读取原始字节数组 - 使用序列文件 SequenceFile

如何RDD[Array[Byte]]使用 Apache Spark 写入文件并再次读取？

scala hadoop hdfs apache-spark sequencefile

2014-06-06T13:42:55.510

0 投票

0 回答

79 浏览

mahout - 亚马逊 EMR 上的 SeqFilesFromDirectory() 错误

我正在尝试在 Amazon EMR 上运行一个简单的程序，它将目录中的文本文件转换为序列文件。该程序在我的本地机器上运行良好，但在 Amazon EMR 上出现以下错误。有人可以告诉我如何摆脱这个错误。

谢谢你。

线程“main”java.lang.IllegalArgumentException 中的异常：此文件系统对象 (hdfs://172.31.4.175:9000) 不支持访问请求路径.. 您可能在应该调用 FileSystem.get(conf)调用 FileSystem.get(uri, conf) 来获取支持您的路径的文件系统。

在 org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:384) 在 org.apache.hadoop.hdfs.DistributedFileSystem.getPathName(DistributedFileSystem.java:129) 在 org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus (DistributedFileSystem.java:513) 在 org.apache.mahout.text.SequenceFilesFromDirectory.runMapReduce(SequenceFilesFromDirectory.java:140) 在 org.apache.mahout.text.SequenceFilesFromDirectory.run(SequenceFilesFromDirectory.java:89) 在 org.apache。 hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:79) at com.gifts.text.SeqFileDirectory.main(SeqFileDirectory.java:36)在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) 在 sun.reflect.DelegatingMethodAccessorImpl。在 org.apache.hadoop.util.RunJar.main(RunJar.java:187) 的 java.lang.reflect.Method.invoke(Method.java:606) 处调用(DelegatingMethodAccessorImpl.java:43)*

mahout amazon-emr sequencefile

2014-06-06T17:37:38.953

0 投票

1 回答

1009 浏览

hadoop - 图像的 Avro 文件类型？

我试图……在 Hadoop 中解决这种情况。

什么是最好的文件格式 Avro 或 SequenceFile，以防在 HDFS 中存储图像并在之后使用 Python 处理它们？

SequenceFile 是面向键值的，所以我认为 Avro 文件会更好地工作？

hadoop avro sequencefile

2014-06-07T07:53:56.153

0 投票

2 回答

1472 浏览

hadoop - 创建具有大 (>1GB) BytesWritable 值大小的 SequenceFile 时出现 NegativeArraySizeException

我尝试了不同的方法来创建一个大型 Hadoop 序列文件，只需一个短（<100 字节）键但一个大（> 1GB）值（BytesWriteable）。

以下示例适用于开箱即用：

https://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-jobclient/src/test/java/org/apache/ hadoop/mapred/BigMapOutput.java

它写入多个随机长度的键和值，总大小> 3GB。

但是，这不是我想要做的。所以我使用 hadoop 2.2.0 API 将其修改为：

当 fileSizeInMB>700MB 时，我收到如下错误：

我看到正在讨论这个错误，但没有看到任何解决方案。请注意，int(2^32) 可以大到 2GB，它不应该在 700MB 时失败。

如果您有其他替代方法来创建如此大值的 SequenceFile，请告知。我尝试了其他方法，例如 IOutils.read 从输入流到字节 []，我得到了堆大小或 OOME。

hadoop out-of-memory heap-memory large-files sequencefile

2014-06-09T19:14:47.673

0 投票

0 回答

1500 浏览

scala - 读取 Spark 编写的 SequenceFile

我有一堆想要使用 Scalding 读取的序列文件，但遇到了一些麻烦。这是我的代码：

我在本地和 hdfs 上运行不同的堆栈跟踪？？？

我的本地堆栈跟踪是：

当我在 hdfs 上运行它时：

我听说读取使用烫伤在级联之外创建的序列文件可能存在问题。我不太明白为什么，我不知道如何解决这个问题。

我将不胜感激对此的解释和解决方案

scala hadoop cascading sequencefile scalding

2014-07-02T12:00:43.013

0 投票

1 回答

378 浏览

hadoop - 在hadoop中对sequenceFile进行排序时出现classcastException？

我正在关注Hadoop-The definitive guide汤姆怀特的第三版。我已成功sequenceFile写入HDFS. 我按照作者在书中给出的示例进行了操作。但是当我尝试运行sort（第 138 页）时，我得到了classCastException. 堆栈跟踪在下面可用。

这里有什么问题，需要什么修复？

hadoop mapreduce sequencefile

2014-07-09T18:02:29.153

0 投票

1 回答

293 浏览

java - 增加 SequenceFileInputFormat 的拆分次数

我使用SequenceFileInputFormat作为地图的输入，其中键是文本，值是文本。有106 个文件，每个文件在 500 MB 到 750 MB 之间。我看到了我的日志，上面说分割数是 290。

我想知道是否有办法增加拆分次数，因为我的工作需要大量时间来运行。谢谢您的帮助。

java performance hadoop mapreduce sequencefile

2014-07-19T01:05:21.600

1 2 3 4 5 6 7 8 9 10

问题标签 [sequencefile]

Reference