“hadoop-lzo”的相关标签问题

0 投票

0 回答

141 浏览

mapreduce - hive sql添加排序或分发然后结果文件大小比以前大

我的蜂巢表都是 lzo 压缩类型。我有两个这样的 hive-sql：

[1]

因为[1] sql 没有reduce，所以会创建很多小文件。

[2]

唯一不同的是最后一行，sql [2] 有“排序依据”。

数据数量和内容相同，但是[2]的文件大小比[1]大，我们的hdfs文件大小几乎是以前的1倍。

你能帮我找出原因吗。

2016-04-20T12:50:40.430

0 投票

1 回答

1012 浏览

apache-spark - 在 spark 中读取未压缩的 thrift 文件

我试图让 spark 从 s3 读取未压缩的节俭文件。到目前为止，它还没有工作。

数据作为未压缩的 thrift 文件加载到 s3 中。来源是 AWS Kinesis Firehose。
我有一个工具可以毫无问题地反序列化文件，所以我知道节俭的序列化/反序列化是有效的。
在火花中，我使用 newAPIHadoopFile
使用大象鸟的 LzoThriftBlockInputFormat，我能够成功读取 lzo 压缩的节俭文件
我不知道应该使用什么 InputFormat 来读取未压缩的节俭文件。

那里的任何输入格式都可能吗？我必须实现自己的吗？

apache-spark thrift hadoop-lzo

2016-06-04T21:11:17.710

0 投票

1 回答

390 浏览

java - Java Hadoop-lzo 找到接口，但需要类 LzoTextInputFormat

我正在尝试使用Hadoop-LZO包（使用此处的步骤构建）。似乎一切都成功了，因为我能够通过以下方式将我的 lzo 文件转换为索引文件（这big_file.lzo.index将按预期返回）：

然后我在我的 mapreduce 作业中使用这些文件（big_file.lzo.index作为输入）：

我收到以下错误：

我已经看到其他问题在回答这个问题，他们说要针对 Hadoop v2 重新构建。所以我从 Github 重新下载了所有内容并运行

构建我的路径时如下：

我真的不确定我做错了什么。如何ant查看 Hadoop v2？

编辑1：可能需要注意：当我同时运行我的mapreduce作业（调用LzoTextInputFormat.class）和lzo转换器（on big_file.lzo）时，我的类路径如下

编辑 2：如果我按如下方式索引 lzo 文件（即尝试使用DistributedLzoIndexer而不是通过 mapreduce 作业进行索引LzoIndexer）我会收到类似的错误：

java hadoop ant hadoop-lzo

2016-12-09T16:21:32.237

0 投票

1 回答

281 浏览

hadoop - 索引后的 Hadoop lzo 单拆分

我有一个 LZO 压缩文件/data/mydata.lzo，想通过一些 MapReduce 代码运行它。我首先使用hadoop-lzo包使用以下命令创建一个索引文件：

这运行成功

并创建文件/data/mydata.lzo.index。我现在想通过其他一些 Hadoop Java 代码运行它

它执行正确，但需要永远。我注意到它只拆分文件一次（当我在非 LZO 文件上运行相同的作业时，它拆分了大约 25 次）

我究竟做错了什么？

hadoop-lzo 文档有点欠缺。它说“现在在新文件上运行任何作业，比如 wordcount ”。我首先认为我应该使用该/data/mydata.lzo.index文件作为我的输入，但使用它时我得到一个空输出。该文档还说“请注意，如果您忘记索引 .lzo 文件，该作业将起作用，但将在单个拆分中处理整个文件，这将降低效率。 ”因此无论出于何种原因，它都看不到该index文件。

传递索引文件的正确方法是什么？

编辑：根据GitHub 上的这个问题，会自动推断索引文件并将根据文件大小进行拆分。仍然不知道为什么我得到一个拆分。

hadoop mapreduce lzo hadoop-lzo

2017-01-04T17:30:34.973

0 投票

1 回答

877 浏览

apache-spark - 在 Spark DataFrames 中读取 json 行的 LZO 文件

我在 HDFS 中有一个大型索引 lzo 文件，我想在 spark 数据帧中读取它。该文件包含多行 json 文档。

posts_dir具有以下内容：

以下工作但不使用索引，因此需要很长时间，因为它只使用一个映射器。

有没有办法让它利用索引？

apache-spark spark-dataframe hadoop-lzo

2017-01-27T03:00:47.400

0 投票

1 回答

2051 浏览

hadoop - 文件压缩格式如何影响我的火花处理

我对理解大数据世界中的可拆分和不可拆分文件格式感到困惑。我使用的是 zip 文件格式，我知道 zip 文件是不可拆分的，当我处理该文件时，我必须使用ZipFileInputFormat基本上解压缩然后处理它的方式。

然后我开始gzip格式化，我可以在我的 spark 工作中处理它，但我总是怀疑为什么人们说gzip文件格式也不能拆分？

它将如何影响我的火花工作表现？

因此，例如，如果有 5k 个大小不同的 gzip 文件，其中一些是 1 kb，其中一些是 10gb，如果我要在 spark 中加载它会发生什么？

我应该在我的情况下使用 gzip 还是任何其他压缩？如果是，那为什么？

还有性能上有什么区别

CASE1：如果我有一个非常大的（10gb）gzip 文件，然后我将它加载到 spark 中并运行计数

CASE2：如果我有一些可拆分（bzip2）相同大小的文件，然后将其加载到 spark 中并运行计数

hadoop apache-spark zip bzip2 hadoop-lzo

user9175539

2018-02-22T18:58:35.543

0 投票

1 回答

964 浏览

hadoop - 未找到压缩编解码器 com.hadoop.compression.lzo.LzoCodec

尝试使用压缩运行 mapreduce 作业

使用 parcels 将 lzo 分发到集群中的所有节点。即使那样我也遇到了以下错误

hadoop mapreduce hadoop-lzo

2020-05-26T06:14:03.817

0 投票

1 回答

231 浏览

java - native-lzo 不可用错误 | 视窗 10 | 爪哇

我正在尝试在我的镶木地板中使用 lzo 压缩编解码器。我不需要 Hadoop，所以我的 Hadoop_Home 路径中只有 hadoop.dll 和 winutils.exe。在我的 Windows 系统中，我尝试按照文档中的说明构建 lzo2.dll，但不知道如何使用它。我浏览了 twitter fork hadoop-lzo，但 Windows 的说明不清楚。请告诉我如何让这个编解码器在 Windows 中运行。我下载了hadoop-3.2.1、lzo-2.1.0、hadoop-lzo。

在 hadoop-lzo 中使用 mvn clean install 会给我 gplcompression.dll not found 错误。

java windows parquet hadoop-lzo

2020-05-28T11:06:19.630

0 投票

0 回答

34 浏览

apache-spark - 为 Spark 准备 lzo 或 lz4 文件

我正在尝试为我的 spark 应用程序选择正确的文件交换格式。我在 Kubernetes 上使用Spark 2.4.7+ 。Haddop 2.10我的应用程序从 S3 下载 CSV 文件并进行处理。该文件由第 3 方公司提供。

我正在考虑让他们使用lz4,lzo或其他可拆分压缩。但是，我可以看到命令行工具文件格式与 Hadooplz4或lzo编解码器不兼容（我试过lzop和lz4cli）

您是否知道任何 CLI 工具允许以 Hadoop 编解码器可以理解的格式准备 lz4 或 lzo 压缩文件？

apache-spark hadoop lz4 lzo hadoop-lzo

2021-05-06T15:29:26.307

0 投票

0 回答

73 浏览

hadoop - Hive 找不到 LZO 编解码器

执行时发生错误select * from xxx：

已完成故障排除：

检查了位于 $HADOOP_HOME/share/hadoop/common 中的所有 hadoop 节点的 hadoop-lzo.jar：

检查在 $HADOOP_HOME/etc/hadoop/core-site.xml 中为所有 hadoop 节点配置的 LZO 编解码器：

我还在 mapreduce 中测试了读取 lzo 文件，它工作正常，所以我认为 hadoop-lzo 配置正确，但它在 hive 中不起作用。

hadoop hive hadoop-lzo

2021-05-16T16:32:46.357

问题标签 [hadoop-lzo]

Reference