“hadoop-lzo”的相关标签问题

0 投票

1 回答

772 浏览

amazon-web-services - 为什么从 S3 读取时，我的 LZO 索引在 Amazon 的 EMR 上需要这么长时间？

我在 S3 上有一个 30gb lzo 文件，我正在使用 hadoop-lzo 使用区域 us-east1 使用 Amazon EMR (AMI v2.4.2) 对其进行索引。

1% 的进度大约需要 10 分钟，因此完成一个文件大约需要 16 小时。进度显示只读取了 80mb。

相比之下，使用同一个集群（当上述作业正在运行时），我可以将文件从 S3 复制到本地硬盘，然后复制到 HDFS，最后在大约 10 分钟内运行索引器。同样，我的本地集群可以在大约 7 分钟内处理这个问题。

过去，我相信我直接在 S3 上运行 LZO 索引而没有出现这种延迟，尽管它是在早期的 AMI 版本上。我不知道我使用的是什么 AMI，因为我总是使用“最新”。（更新：我尝试了 AMI v2.2.4 的结果相同，所以也许我记错了或其他原因导致速度缓慢）

任何想法可能会发生什么？

这是 Step 的日志输出的副本：

我的解决方法

distcpFWIW，我的解决方法是通过（见下文）将文件复制到 HDFS 。在我看来，这种缓慢似乎是 AWS 可以改进的一个问题。在下面的作业中，从 S3 复制到 HDFS 需要 17 分钟，而索引只需 1 分钟。

2014-01-01T04:15:23.523

0 投票

2 回答

2147 浏览

cloudera - 使用 sqoop 将 lzo 压缩中的数据从 hdfs 导出到 mysql 时出现 NoSuchElementException

我正在尝试使用 sqoop 将一些数据从 hdfs 导出到 mysql。问题是当我尝试导出它正确导出的未压缩文件时，但如果我尝试导出使用 lzo 压缩压缩的相同文件，则 sqoop 作业将失败。我正在标准 cloudera CDH4 VM 环境中尝试它。文件中的列由制表符分隔，null 表示为 '\N'。

文件内容：

mysql表说明：

hdfs中的文件：

sqoop 命令：

错误：

如果文件未压缩并且我直接使用dipayan-test.txt文件，这将非常有效。

在解决此问题时需要帮助，并且还想知道在处理 lzo 文件时是否遗漏了某些内容。

cloudera sqoop hadoop-lzo

2014-02-17T07:36:34.207

0 投票

3 回答

30792 浏览

apache-spark - 在 CDH 5 上找不到 Spark 的 com.hadoop.compression.lzo.LzoCodec 类？

我已经解决这个问题两天了，仍然没有找到方法。

问题：我们通过最新的 CDH 5 安装的 Spark 总是抱怨 LzoCodec 类丢失，即使我在 cloudera 管理器中通过 Parcels 安装了 HADOOP_LZO。我们在 CDH 5.0.0-1.cdh5.0.0.p0.47 上运行 MR1。

尝试修复：CDH官方文档中关于“使用LZO包裹”的配置也被添加了，但问题仍然存在。

大多数谷歌搜索的帖子都提供了与上述类似的建议。我还怀疑火花正试图对抗未激活的 YARN；但我在 CMF 或有关此主题的其他帖子中找不到配置。

如果您知道如何处理它，请给我一些帮助。

apache-spark cloudera-cdh hadoop-lzo

2014-05-03T06:37:14.600

0 投票

1 回答

2457 浏览

hadoop - 如果压缩类型是 RECORD 而不是块，我们是否需要创建一个索引文件（使用 lzop）？

据我了解，需要一个索引文件才能使输出可拆分。如果mapred.output.compression.type=SequenceFile.CompressionType.RECORD，我们还需要创建Index文件吗？

hadoop hadoop-lzo

2014-05-09T08:46:55.313

0 投票

1 回答

332 浏览

java - lzo 编解码器 b/w python 和 java 的区别

我遇到了一个奇怪的问题，无法在 java 中膨胀/解压缩 lzo 压缩数据，这些数据是从 python lzo 模块放气/压缩的，尽管两者似乎都使用相同的本机 lzo 编解码器实现。为了提供更多详细信息，我从这里使用 python 模块：

并压缩一个简单的字节“a”产生

并在java中使用压缩相同的字节“a”

产量

尾随部分看起来很相似，即部分 [11 00 00] 但标题肯定看起来不合适。我确保python和java都使用lzo 2.03版，python和java中的默认压缩策略都是LZO1X_1。任何帮助将不胜感激。

java hadoop compression lzo hadoop-lzo

2014-05-13T05:50:18.860

0 投票

0 回答

1914 浏览

java - java.lang.UnsatisfiedLinkError: java.library.path 中没有 gplcompression

我得到了：java.lang.UnsatisfiedLinkError: no gplcompression in java.library.path所以我跟着：[ http://wiki.apache.org/hadoop/UsingLzoCompression]所以在运行之后

$ant compile-native

我收到很多错误：

帮助！

java hadoop lzo hadoop-lzo

2015-07-28T13:00:13.263

0 投票

1 回答

1425 浏览

java - 尝试将 LZO 压缩与 MapReduce 一起使用

我想在 MapReduce 中使用 LZO 压缩，但在运行 MapReduce 作业时出现错误。我正在使用带有 Java 程序的 Ubuntu。我只是想在我的本地机器上运行它。我最初的错误是

下线

接着

我遵循了一些关于如何下载和配置文件以用于 LZO 压缩的在线和文本说明。在这里你可以在文件夹中看到我的 hadoop-lzo jarlib文件

我已经改变了我的配置。这是我的 core-site.xml

和我的 mapred-site.xml

我还用这些行在同一个 conf 文件夹中修改了我的 hadoop-env.sh

如果你对什么感兴趣/home/hadoop/lib/native/lib/lib

对于它的价值，这是我的 Driver 类，它完成了所有的压缩

它编译没有错误。

我担心我对配置和其他步骤缺乏了解会导致我走上错误的道路，也许对于那些比我有更好理解的人来说，我错过了一些简单的东西。谢谢你走到这一步。我知道这是一个很长的帖子。

java hadoop mapreduce compression hadoop-lzo

2015-08-20T16:00:39.583

0 投票

1 回答

701 浏览

java - 使用 lzo 压缩创建 Hive 表，无法找到扩展名为 .lzo 的文件

我通过在 hive 命令提示符下设置以下属性创建了一个 Hive 表：

创建表语句：

现在我去这个位置 /users/JOBDATA/comp 并找到一个名为 000000_0.deflate 的文件

我不确定这是压缩文件，但当我下载它时，它不可读。如果是，那么为什么它没有 .lzo 扩展名？

如果不是，我在哪里可以找到 .lzo 文件？

最后我如何使用java解压它？谢谢

java mapreduce lzo hadoop-lzo

2015-10-14T13:27:30.700

0 投票

1 回答

178 浏览

hadoop - S3 上的 LZO 文件问题

我在 HDFS 中有 3 个 LZO 压缩文件及其对应的索引文件。

我们将这些文件复制到 Amazon S3 并创建 Hive 外部表进行分析。

以下是我们面临的问题，

你能告诉我S3发生了什么吗？它在我们的 YARN 集群中运行良好。

hadoop amazon-web-services amazon-s3 hive hadoop-lzo

2015-12-04T10:52:21.327

0 投票

0 回答

1305 浏览

scala - 在 Spark 中读取 Avro 容器文件

我正在处理一个需要从 HDFS 读取 Avro 容器文件并使用 Spark 进行分析的场景。

输入文件目录： hdfs: ///user/learner/20151223/.lzo*

注意：输入 Avro 文件是 lzo 压缩的。

当我运行上面的命令时，它会抛出一个错误：

这是有道理的，因为方法 read.avro() 期望 .avro 扩展文件作为输入。所以我提取输入的 .lzo 文件并将其重命名为 .avro。我能够正确读取 avro 文件中的数据。

有没有办法在 spark 中读取 lzo 压缩的 Avro 文件？

解决方案有效，但是！

我找到了解决这个问题的方法。我创建了一个外壳包装器，其中我使用以下方式将 .lzo 解压缩为 .avro 文件格式：

我成功地解压了 lzo 文件，但问题是我有至少 5000 个压缩格式的文件。解压缩和逐个转换需要将近 1 个多小时才能运行此作业。

有什么办法可以批量解压吗？

再次感谢！

scala hadoop apache-spark hadoop-lzo

2016-01-10T17:15:28.050

问题标签 [hadoop-lzo]

我的解决方法

Reference