问题标签 [sequencefile]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

159 问题

0 投票

1 回答

136 浏览

hadoop - Hadoop 输入格式

在准备hadoop考试时遇到了以下我无法理解正确答案的问题，不确定问题的正确性。

给定具有以下结构的文件目录：行号、制表符、字符串：

您想将每一行作为一条记录发送到您的映射器。您将使用哪个 InputFormat 来完成该行： setInputFormat (________.class);

答案：C

但在意见中，为了实现这一点，KeyValueTextInputFormat或者SequenceFileAsTextInputFormat也可以使用。

hadoop sequencefile

2015-03-16T04:32:23.513

0 投票

1 回答

393 浏览

hadoop - FileNotFoundException 序列文件 Mahout

我正在阅读Apache Mahout Cookbook。但是我在第 2 章有一个问题，创建一个序列文件。我正在使用 Mahout 0.9

我正在执行的命令如下：

但我收到以下错误：

谁能告诉我为什么我得到这个例外？谢谢！

2015-03-16T15:50:40.390

0 投票

1 回答

2330 浏览

java - 在 Spark 中保存和读取键值对

我有以下格式的 JavaPairRDD：

我想将其保存为 Key-Value 格式(String, Tuple2< String, List< String>>)。

所以我的下一份工作可以直接将数据读入我的JavaPairRDD：

我正在使用 Java 7、Spark 1.2、Java API。我试过了saveAsTextFile，saveAsObjectFile都不管用。而且我saveAsSequenceFile在日食中看不到选项。

有人对这个问题有什么建议吗？非常感谢！

java apache-spark object-files sequencefile

2015-04-06T00:10:38.577

0 投票

2 回答

213 浏览

java - 多个小文件的 SequenceFile 压缩器仅在一个 file.seq 中

HDFS 和 Hadoop 中的 Novell：我正在开发一个程序，它应该获取特定目录的所有文件，我们可以在其中找到几个任何类型的小文件。

获取everyfile并在SequenceFile中进行附加压缩，其中键必须是文件的路径，值必须是得到的文件，现在我的代码是：

但是在每次执行之后我都会收到这个异常：

java.io.IOException：找不到值类的序列化程序：“org.apache.hadoop.fs.FSDataInputStream”。如果您使用自定义序列化，请确保配置“io.serializations”已正确配置。文件未找到

我知道错误必须在我正在创建的文件类型和我为添加到 sequenceFile 中定义的对象类型中，但我不知道应该添加哪个，有人可以帮我吗？

java hadoop hdfs sequencefile

2015-04-16T20:41:54.093

0 投票

1 回答

665 浏览

hadoop - 根据字段之一将 Scalding TypedPipe 输出到多个目录中的 SequenceFile

我在 Hadoop 上使用 Scalding，我有一个 TypedPipe 形式的大型数据集，我希望根据其中一个数据字段分块输出。

例如，数据是<category, field1, field2>，我希望将每个类别的数据存储在一个单独的类别中的 SequenceFile 中，例如outPath/cat1，outPath/cat2等等。我想要一个 MapReduce 阶段（或避免循环）。

我在TemplatedTsv这里阅读了有关该选项的信息：如何在 Scalding 中存储输出

在这里：如何在 Scalding 中使用 Hive 样式的目录结构输出数据？

但是，这仅在您需要 Tsv 文件而不是 SequenceFile 时才有效。

显然循环有效：

那么是否有一种等效的方法可以TemplateTsv用来编写 SequenceFile，避免循环？

hadoop cascading scalding sequencefile

2015-05-10T10:08:07.450

0 投票

1 回答

1395 浏览

hadoop - 如何在没有安装hadoop的情况下在本地文件系统中创建hadoop序列文件？

是否可以仅在不安装 hadoop 的情况下从 java 创建 hadoop 序列文件？我需要一个在本地创建序列文件的独立 java 程序。我的 java 程序将在没有安装 hadoop 的环境中运行。

hadoop sequencefile

2015-05-15T09:39:36.953

0 投票

1 回答

461 浏览

hadoop - 与本地文件系统相比，序列文件是否有助于提高 HDFS 中的读取性能？

我想比较 1000 个小文件（1-2 mb）的 HDFS 和本地文件系统的性能。在不使用序列文件的情况下，HDFS 读取 1000 个文件所需的时间几乎是本地文件系统的两倍。我在这里听说过序列文件 - HDFS 中的小文件问题我想显示 HDFS 比本地 FS 检索这些记录的响应时间更好。序列文件会有所帮助还是我应该寻找其他东西？（HBase 可能）

编辑：我正在使用 Java 程序来读取像这里HDFS 这样的文件 Read through Java

hadoop filesystems hdfs performance-testing sequencefile

2015-06-29T17:29:49.670

0 投票

0 回答

113 浏览

java - 创建的序列文件在 hadoop 中给出了奇怪的输出

我想将几个小的 bzip2 文件组合成一个序列文件。我看到了一个创建序列文件的代码并尝试了它。但它给出了如下奇怪的输出。这是因为它无法读取 bzip2 文件吗？

代码是

我传递的输入是 Json.bzip2 文件。有人可以指出为什么我得到奇怪的输出。

java hadoop mapreduce sequencefile

2015-07-01T22:46:28.370

0 投票

0 回答

288 浏览

amazon-s3 - 在 EMR 上使用 PySpark 从 S3 读取序列文件会导致 RACK_LOCAL 局部性

我正在尝试在 EMR 上使用 PySpark 来分析在 S3 上存储为 SequenceFiles 的一些数据，但由于数据局部性而遇到性能问题。这是一个非常简单但效果不佳的示例：

问题在于count动作，它工作正常，但任务分配很差。出于某种原因，在 Spark 日志中，我只看到集群的 2 个 IP 做任何实际工作，而其余 IP 则处于空闲状态。我尝试使用 5 节点集群和 50 节点集群，但日志中始终只有 2 个 IP。

同样很奇怪的是，这两个 IP 的位置是 RACK_LOCAL。我假设这是因为数据在 S3 中，所以它不是本地的，但是我怎样才能让 Spark 使用整个集群而不是仅使用 2 个实例？

我没有为 EMR 上的 Spark 配置做任何特定的事情，只是通过本机应用程序将其安装在 EMR 上，我相信它会自动优化配置。

我在日志中看到了这个，这allowLocal=false可能是一个问题，但我找不到任何东西：

运行时出现的一些日志，count仅显示 2 个 IP：

amazon-s3 apache-spark sequencefile

2015-07-18T00:35:24.133

0 投票

1 回答

81 浏览

hadoop - 每次运行相同的 Hadoop SequenceFile 创建例程都会创建一个具有不同 crc 的文件。可以吗？

我有一个创建 Hadoop 序列文件的简单代码。每个代码运行它都会在工作目录中留下两个文件：

每次运行后，两个文件的大小保持不变。但是crc文件内容变得不一样了！

这是一个错误还是预期的行为？

hadoop crc sequencefile

2015-07-22T16:53:13.537

1 2 3 4 5 6 7 8 9 10

问题标签 [sequencefile]

Reference