问题标签 [hadoop-lzo]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
141 浏览

mapreduce - hive sql添加排序或分发然后结果文件大小比以前大

我的蜂巢表都是 lzo 压缩类型。我有两个这样的 hive-sql:

[1]

因为[1] sql 没有reduce,所以会创建很多小文件。

[2]

唯一不同的是最后一行,sql [2] 有“排序依据”。

数据数量和内容相同,但是[2]的文件大小比[1]大,我们的hdfs文件大小几乎是以前的1倍。

你能帮我找出原因吗。

0 投票
1 回答
1012 浏览

apache-spark - 在 spark 中读取未压缩的 thrift 文件

我试图让 spark 从 s3 读取未压缩的节俭文件。到目前为止,它还没有工作。

  • 数据作为未压缩的 thrift 文件加载到 s3 中。来源是 AWS Kinesis Firehose。
  • 我有一个工具可以毫无问题地反序列化文件,所以我知道节俭的序列化/反序列化是有效的。
  • 在火花中,我使用 newAPIHadoopFile
  • 使用大象鸟的 LzoThriftBlockInputFormat,我能够成功读取 lzo 压缩的节俭文件
  • 我不知道应该使用什么 InputFormat 来读取未压缩的节俭文件。

那里的任何输入格式都可能吗?我必须实现自己的吗?

0 投票
1 回答
390 浏览

java - Java Hadoop-lzo 找到接口,但需要类 LzoTextInputFormat

我正在尝试使用Hadoop-LZO包(使用此处的步骤构建)。似乎一切都成功了,因为我能够通过以下方式将我的 lzo 文件转换为索引文件(这big_file.lzo.index将按预期返回):

然后我在我的 mapreduce 作业中使用这些文件(big_file.lzo.index作为输入):

我收到以下错误:

我已经看到其他问题在回答这个问题,他们说要针对 Hadoop v2 重新构建。所以我从 Github 重新下载了所有内容并运行

构建我的路径时如下:

我真的不确定我做错了什么。如何ant查看 Hadoop v2?

编辑1:可能需要注意:当我同时运行我的mapreduce作业(调用LzoTextInputFormat.class)和lzo转换器(on big_file.lzo)时,我的类路径如下

编辑 2:如果我按如下方式索引 lzo 文件(即尝试使用DistributedLzoIndexer而不是通过 mapreduce 作业进行索引LzoIndexer)我会收到类似的错误:

0 投票
1 回答
281 浏览

hadoop - 索引后的 Hadoop lzo 单拆分

我有一个 LZO 压缩文件/data/mydata.lzo,想通过一些 MapReduce 代码运行它。我首先使用hadoop-lzo包使用以下命令创建一个索引文件:

这运行成功

并创建文件/data/mydata.lzo.index。我现在想通过其他一些 Hadoop Java 代码运行它

它执行正确,但需要永远。我注意到它只拆分文件一次(当我在非 LZO 文件上运行相同的作业时,它拆分了大约 25 次)

我究竟做错了什么?

hadoop-lzo 文档有点欠缺。它说“现在在新文件上运行任何作业,比如 wordcount ”。我首先认为我应该使用该/data/mydata.lzo.index文件作为我的输入,但使用它时我得到一个空输出。该文档还说“请注意,如果您忘记索引 .lzo 文件,该作业将起作用,但将在单个拆分中处理整个文件,这将降低效率。 ”因此无论出于何种原因,它都看不到该index文件。

传递索引文件的正确方法是什么?

编辑:根据GitHub 上的这个问题,会自动推断索引文件并将根据文件大小进行拆分。仍然不知道为什么我得到一个拆分。

0 投票
1 回答
877 浏览

apache-spark - 在 Spark DataFrames 中读取 json 行的 LZO 文件

我在 HDFS 中有一个大型索引 lzo 文件,我想在 spark 数据帧中读取它。该文件包含多行 json 文档。

posts_dir具有以下内容:

以下工作但不使用索引,因此需要很长时间,因为它只使用一个映射器。

有没有办法让它利用索引?

0 投票
1 回答
2051 浏览

hadoop - 文件压缩格式如何影响我的火花处理

我对理解大数据世界中的可拆分和不可拆分文件格式感到困惑。我使用的是 zip 文件格式,我知道 zip 文件是不可拆分的,当我处理该文件时,我必须使用ZipFileInputFormat基本上解压缩然后处理它的方式。

然后我开始gzip格式化,我可以在我的 spark 工作中处理它,但我总是怀疑为什么人们说gzip文件格式也不能拆分?

它将如何影响我的火花工作表现?

因此,例如,如果有 5k 个大小不同的 gzip 文件,其中一些是 1 kb,其中一些是 10gb,如果我要在 spark 中加载它会发生什么?

我应该在我的情况下使用 gzip 还是任何其他压缩?如果是,那为什么?

还有性能上有什么区别

CASE1:如果我有一个非常大的(10gb)gzip 文件,然后我将它加载到 spark 中并运行计数

CASE2:如果我有一些可拆分(bzip2)相同大小的文件,然后将其加载到 spark 中并运行计数

0 投票
1 回答
964 浏览

hadoop - 未找到压缩编解码器 com.hadoop.compression.lzo.LzoCodec

尝试使用压缩运行 mapreduce 作业

使用 parcels 将 lzo 分发到集群中的所有节点。即使那样我也遇到了以下错误

0 投票
1 回答
231 浏览

java - native-lzo 不可用错误 | 视窗 10 | 爪哇

我正在尝试在我的镶木地板中使用 lzo 压缩编解码器。我不需要 Hadoop,所以我的 Hadoop_Home 路径中只有 hadoop.dll 和 winutils.exe。在我的 Windows 系统中,我尝试按照文档中的说明构建 lzo2.dll,但不知道如何使用它。我浏览了 twitter fork hadoop-lzo,但 Windows 的说明不清楚。请告诉我如何让这个编解码器在 Windows 中运行。我下载了hadoop-3.2.1、lzo-2.1.0、hadoop-lzo。

在 hadoop-lzo 中使用 mvn clean install 会给我 gplcompression.dll not found 错误。

0 投票
0 回答
34 浏览

apache-spark - 为 Spark 准备 lzo 或 lz4 文件

我正在尝试为我的 spark 应用程序选择正确的文件交换格式。我在 Kubernetes 上使用Spark 2.4.7+ 。Haddop 2.10我的应用程序从 S3 下载 CSV 文件并进行处理。该文件由第 3 方公司提供。

我正在考虑让他们使用lz4,lzo或其他可拆分压缩。但是,我可以看到命令行工具文件格式与 Hadooplz4lzo编解码器不兼容(我试过lzoplz4cli)

您是否知道任何 CLI 工具允许以 Hadoop 编解码器可以理解的格式准备 lz4 或 lzo 压缩文件?

0 投票
0 回答
73 浏览

hadoop - Hive 找不到 LZO 编解码器

执行时发生错误select * from xxx

已完成故障排除:

检查了位于 $HADOOP_HOME/share/hadoop/common 中的所有 hadoop 节点的 hadoop-lzo.jar:

检查在 $HADOOP_HOME/etc/hadoop/core-site.xml 中为所有 hadoop 节点配置的 LZO 编解码器:

我还在 mapreduce 中测试了读取 lzo 文件,它工作正常,所以我认为 hadoop-lzo 配置正确,但它在 hive 中不起作用。