问题标签 [sequencefile]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
136 浏览

hadoop - Hadoop 输入格式

在准备hadoop考试时遇到了以下我无法理解正确答案的问题,不确定问题的正确性。

给定具有以下结构的文件目录:行号、制表符、字符串:

您想将每一行作为一条记录发送到您的映射器。您将使用哪个 InputFormat 来完成该行: setInputFormat (________.class);

答案:C

但在意见中,为了实现这一点,KeyValueTextInputFormat或者SequenceFileAsTextInputFormat也可以使用。

0 投票
1 回答
393 浏览

hadoop - FileNotFoundException 序列文件 Mahout

我正在阅读Apache Mahout Cookbook。但是我在第 2 章有一个问题,创建一个序列文件。我正在使用 Mahout 0.9

我正在执行的命令如下:

但我收到以下错误:

谁能告诉我为什么我得到这个例外?谢谢!

0 投票
1 回答
2330 浏览

java - 在 Spark 中保存和读取键值对

我有以下格式的 JavaPairRDD:

我想将其保存为 Key-Value 格式(String, Tuple2< String, List< String>>)

所以我的下一份工作可以直接将数据读入我的JavaPairRDD

我正在使用 Java 7、Spark 1.2、Java API。我试过了saveAsTextFilesaveAsObjectFile都不管用。而且我saveAsSequenceFile在日食中看不到选项。

有人对这个问题有什么建议吗?非常感谢!

0 投票
2 回答
213 浏览

java - 多个小文件的 SequenceFile 压缩器仅在一个 file.seq 中

HDFS 和 Hadoop 中的 Novell:我正在开发一个程序,它应该获取特定目录的所有文件,我们可以在其中找到几个任何类型的小文件。

获取everyfile并在SequenceFile中进行附加压缩,其中键必须是文件的路径,值必须是得到的文件,现在我的代码是:

但是在每次执行之后我都会收到这个异常:

java.io.IOException:找不到值类的序列化程序:“org.apache.hadoop.fs.FSDataInputStream”。如果您使用自定义序列化,请确保配置“io.serializations”已正确配置。文件未找到

我知道错误必须在我正在创建的文件类型和我为添加到 sequenceFile 中定义的对象类型中,但我不知道应该添加哪个,有人可以帮我吗?

0 投票
1 回答
665 浏览

hadoop - 根据字段之一将 Scalding TypedPipe 输出到多个目录中的 SequenceFile

我在 Hadoop 上使用 Scalding,我有一个 TypedPipe 形式的大型数据集,我希望根据其中一个数据字段分块输出。

例如,数据是<category, field1, field2>,我希望将每个类别的数据存储在一个单独的类别中的 SequenceFile 中,例如outPath/cat1outPath/cat2等等。我想要一个 MapReduce 阶段(或避免循环)。

我在TemplatedTsv这里阅读了有关该选项的信息: ​​如何在 Scalding 中存储输出

在这里: 如何在 Scalding 中使用 Hive 样式的目录结构输出数据?

但是,这仅在您需要 Tsv 文件而不是 SequenceFile 时才有效。

显然循环有效:

那么是否有一种等效的方法可以TemplateTsv用来编写 SequenceFile,避免循环?

0 投票
1 回答
1395 浏览

hadoop - 如何在没有安装hadoop的情况下在本地文件系统中创建hadoop序列文件?

是否可以仅在不安装 hadoop 的情况下从 java 创建 hadoop 序列文件?我需要一个在本地创建序列文件的独立 java 程序。我的 java 程序将在没有安装 hadoop 的环境中运行。

0 投票
1 回答
461 浏览

hadoop - 与本地文件系统相比,序列文件是否有助于提高 HDFS 中的读取性能?

我想比较 1000 个小文件(1-2 mb)的 HDFS 和本地文件系统的性能。在不使用序列文件的情况下,HDFS 读取 1000 个文件所需的时间几乎是本地文件系统的两倍。我在这里听说过序列文件 - HDFS 中的小文件问题 我想显示 HDFS 比本地 FS 检索这些记录的响应时间更好。序列文件会有所帮助还是我应该寻找其他东西?(HBase 可能)

编辑:我正在使用 Java 程序来读取像这里HDFS 这样的文件 Read through Java

0 投票
0 回答
113 浏览

java - 创建的序列文件在 hadoop 中给出了奇怪的输出

我想将几个小的 bzip2 文件组合成一个序列文件。我看到了一个创建序列文件的代码并尝试了它。但它给出了如下奇怪的输出。这是因为它无法读取 bzip2 文件吗?

代码是

我传递的输入是 Json.bzip2 文件。有人可以指出为什么我得到奇怪的输出。

0 投票
0 回答
288 浏览

amazon-s3 - 在 EMR 上使用 PySpark 从 S3 读取序​​列文件会导致 RACK_LOCAL 局部性

我正在尝试在 EMR 上使用 PySpark 来分析在 S3 上存储为 SequenceFiles 的一些数据,但由于数据局部性而遇到性能问题。这是一个非常简单但效果不佳的示例:

问题在于count动作,它工作正常,但任务分配很差。出于某种原因,在 Spark 日志中,我只看到集群的 2 个 IP 做任何实际工作,而其余 IP 则处于空闲状态。我尝试使用 5 节点集群和 50 节点集群,但日志中始终只有 2 个 IP。

同样很奇怪的是,这两个 IP 的位置是 RACK_LOCAL。我假设这是因为数据在 S3 中,所以它不是本地的,但是我怎样才能让 Spark 使用整个集群而不是仅使用 2 个实例?

我没有为 EMR 上的 Spark 配置做任何特定的事情,只是通过本机应用程序将其安装在 EMR 上,我相信它会自动优化配置。

我在日志中看到了这个,这allowLocal=false可能是一个问题,但我找不到任何东西:

运行时出现的一些日志,count仅显示 2 个 IP:

0 投票
1 回答
81 浏览

hadoop - 每次运行相同的 Hadoop SequenceFile 创建例程都会创建一个具有不同 crc 的文件。可以吗?

我有一个创建 Hadoop 序列文件的简单代码。每个代码运行它都会在工作目录中留下两个文件:

每次运行后,两个文件的大小保持不变。但是crc文件内容变得不一样了!

这是一个错误还是预期的行为?