问题标签 [sequencefile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop 输入格式
在准备hadoop考试时遇到了以下我无法理解正确答案的问题,不确定问题的正确性。
给定具有以下结构的文件目录:行号、制表符、字符串:
您想将每一行作为一条记录发送到您的映射器。您将使用哪个 InputFormat 来完成该行: setInputFormat (________.class);
答案:C
但在意见中,为了实现这一点,KeyValueTextInputFormat
或者SequenceFileAsTextInputFormat
也可以使用。
hadoop - FileNotFoundException 序列文件 Mahout
我正在阅读Apache Mahout Cookbook。但是我在第 2 章有一个问题,创建一个序列文件。我正在使用 Mahout 0.9
我正在执行的命令如下:
但我收到以下错误:
谁能告诉我为什么我得到这个例外?谢谢!
java - 在 Spark 中保存和读取键值对
我有以下格式的 JavaPairRDD:
我想将其保存为 Key-Value 格式(String, Tuple2< String, List< String>>)
。
所以我的下一份工作可以直接将数据读入我的JavaPairRDD
:
我正在使用 Java 7、Spark 1.2、Java API。我试过了saveAsTextFile
,saveAsObjectFile
都不管用。而且我saveAsSequenceFile
在日食中看不到选项。
有人对这个问题有什么建议吗?非常感谢!
java - 多个小文件的 SequenceFile 压缩器仅在一个 file.seq 中
HDFS 和 Hadoop 中的 Novell:我正在开发一个程序,它应该获取特定目录的所有文件,我们可以在其中找到几个任何类型的小文件。
获取everyfile并在SequenceFile中进行附加压缩,其中键必须是文件的路径,值必须是得到的文件,现在我的代码是:
但是在每次执行之后我都会收到这个异常:
java.io.IOException:找不到值类的序列化程序:“org.apache.hadoop.fs.FSDataInputStream”。如果您使用自定义序列化,请确保配置“io.serializations”已正确配置。文件未找到
我知道错误必须在我正在创建的文件类型和我为添加到 sequenceFile 中定义的对象类型中,但我不知道应该添加哪个,有人可以帮我吗?
hadoop - 根据字段之一将 Scalding TypedPipe 输出到多个目录中的 SequenceFile
我在 Hadoop 上使用 Scalding,我有一个 TypedPipe 形式的大型数据集,我希望根据其中一个数据字段分块输出。
例如,数据是<category, field1, field2>
,我希望将每个类别的数据存储在一个单独的类别中的 SequenceFile 中,例如outPath/cat1
,outPath/cat2
等等。我想要一个 MapReduce 阶段(或避免循环)。
我在TemplatedTsv
这里阅读了有关该选项的信息:
如何在 Scalding 中存储输出
在这里: 如何在 Scalding 中使用 Hive 样式的目录结构输出数据?
但是,这仅在您需要 Tsv 文件而不是 SequenceFile 时才有效。
显然循环有效:
那么是否有一种等效的方法可以TemplateTsv
用来编写 SequenceFile,避免循环?
hadoop - 如何在没有安装hadoop的情况下在本地文件系统中创建hadoop序列文件?
是否可以仅在不安装 hadoop 的情况下从 java 创建 hadoop 序列文件?我需要一个在本地创建序列文件的独立 java 程序。我的 java 程序将在没有安装 hadoop 的环境中运行。
hadoop - 与本地文件系统相比,序列文件是否有助于提高 HDFS 中的读取性能?
我想比较 1000 个小文件(1-2 mb)的 HDFS 和本地文件系统的性能。在不使用序列文件的情况下,HDFS 读取 1000 个文件所需的时间几乎是本地文件系统的两倍。我在这里听说过序列文件 - HDFS 中的小文件问题 我想显示 HDFS 比本地 FS 检索这些记录的响应时间更好。序列文件会有所帮助还是我应该寻找其他东西?(HBase 可能)
编辑:我正在使用 Java 程序来读取像这里HDFS 这样的文件 Read through Java
java - 创建的序列文件在 hadoop 中给出了奇怪的输出
我想将几个小的 bzip2 文件组合成一个序列文件。我看到了一个创建序列文件的代码并尝试了它。但它给出了如下奇怪的输出。这是因为它无法读取 bzip2 文件吗?
代码是
我传递的输入是 Json.bzip2 文件。有人可以指出为什么我得到奇怪的输出。
amazon-s3 - 在 EMR 上使用 PySpark 从 S3 读取序列文件会导致 RACK_LOCAL 局部性
我正在尝试在 EMR 上使用 PySpark 来分析在 S3 上存储为 SequenceFiles 的一些数据,但由于数据局部性而遇到性能问题。这是一个非常简单但效果不佳的示例:
问题在于count
动作,它工作正常,但任务分配很差。出于某种原因,在 Spark 日志中,我只看到集群的 2 个 IP 做任何实际工作,而其余 IP 则处于空闲状态。我尝试使用 5 节点集群和 50 节点集群,但日志中始终只有 2 个 IP。
同样很奇怪的是,这两个 IP 的位置是 RACK_LOCAL。我假设这是因为数据在 S3 中,所以它不是本地的,但是我怎样才能让 Spark 使用整个集群而不是仅使用 2 个实例?
我没有为 EMR 上的 Spark 配置做任何特定的事情,只是通过本机应用程序将其安装在 EMR 上,我相信它会自动优化配置。
我在日志中看到了这个,这allowLocal=false
可能是一个问题,但我找不到任何东西:
运行时出现的一些日志,count
仅显示 2 个 IP:
hadoop - 每次运行相同的 Hadoop SequenceFile 创建例程都会创建一个具有不同 crc 的文件。可以吗?
我有一个创建 Hadoop 序列文件的简单代码。每个代码运行它都会在工作目录中留下两个文件:
每次运行后,两个文件的大小保持不变。但是crc文件内容变得不一样了!
这是一个错误还是预期的行为?