问题标签 [hadoop-lzo]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 为什么从 S3 读取时,我的 LZO 索引在 Amazon 的 EMR 上需要这么长时间?
我在 S3 上有一个 30gb lzo 文件,我正在使用 hadoop-lzo 使用区域 us-east1 使用 Amazon EMR (AMI v2.4.2) 对其进行索引。
1% 的进度大约需要 10 分钟,因此完成一个文件大约需要 16 小时。进度显示只读取了 80mb。
相比之下,使用同一个集群(当上述作业正在运行时),我可以将文件从 S3 复制到本地硬盘,然后复制到 HDFS,最后在大约 10 分钟内运行索引器。同样,我的本地集群可以在大约 7 分钟内处理这个问题。
过去,我相信我直接在 S3 上运行 LZO 索引而没有出现这种延迟,尽管它是在早期的 AMI 版本上。我不知道我使用的是什么 AMI,因为我总是使用“最新”。(更新:我尝试了 AMI v2.2.4 的结果相同,所以也许我记错了或其他原因导致速度缓慢)
任何想法可能会发生什么?
这是 Step 的日志输出的副本:
我的解决方法
distcp
FWIW,我的解决方法是通过(见下文)将文件复制到 HDFS 。在我看来,这种缓慢似乎是 AWS 可以改进的一个问题。在下面的作业中,从 S3 复制到 HDFS 需要 17 分钟,而索引只需 1 分钟。
cloudera - 使用 sqoop 将 lzo 压缩中的数据从 hdfs 导出到 mysql 时出现 NoSuchElementException
我正在尝试使用 sqoop 将一些数据从 hdfs 导出到 mysql。问题是当我尝试导出它正确导出的未压缩文件时,但如果我尝试导出使用 lzo 压缩压缩的相同文件,则 sqoop 作业将失败。我正在标准 cloudera CDH4 VM 环境中尝试它。文件中的列由制表符分隔,null 表示为 '\N'。
文件内容:
mysql表说明:
hdfs中的文件:
sqoop 命令:
错误:
如果文件未压缩并且我直接使用dipayan-test.txt
文件,这将非常有效。
在解决此问题时需要帮助,并且还想知道在处理 lzo 文件时是否遗漏了某些内容。
apache-spark - 在 CDH 5 上找不到 Spark 的 com.hadoop.compression.lzo.LzoCodec 类?
我已经解决这个问题两天了,仍然没有找到方法。
问题:我们通过最新的 CDH 5 安装的 Spark 总是抱怨 LzoCodec 类丢失,即使我在 cloudera 管理器中通过 Parcels 安装了 HADOOP_LZO。我们在 CDH 5.0.0-1.cdh5.0.0.p0.47 上运行 MR1。
尝试修复:CDH官方文档中关于“使用LZO包裹”的配置也被添加了,但问题仍然存在。
大多数谷歌搜索的帖子都提供了与上述类似的建议。我还怀疑火花正试图对抗未激活的 YARN;但我在 CMF 或有关此主题的其他帖子中找不到配置。
如果您知道如何处理它,请给我一些帮助。
hadoop - 如果压缩类型是 RECORD 而不是块,我们是否需要创建一个索引文件(使用 lzop)?
据我了解,需要一个索引文件才能使输出可拆分。如果mapred.output.compression.type=SequenceFile.CompressionType.RECORD,我们还需要创建Index文件吗?
java - lzo 编解码器 b/w python 和 java 的区别
我遇到了一个奇怪的问题,无法在 java 中膨胀/解压缩 lzo 压缩数据,这些数据是从 python lzo 模块放气/压缩的,尽管两者似乎都使用相同的本机 lzo 编解码器实现。为了提供更多详细信息,我从这里使用 python 模块:
并压缩一个简单的字节“a”产生
并在java中使用压缩相同的字节“a”
产量
尾随部分看起来很相似,即部分 [11 00 00] 但标题肯定看起来不合适。我确保python和java都使用lzo 2.03版,python和java中的默认压缩策略都是LZO1X_1。任何帮助将不胜感激。
java - java.lang.UnsatisfiedLinkError: java.library.path 中没有 gplcompression
我得到了:java.lang.UnsatisfiedLinkError: no gplcompression in java.library.path
所以我跟着:[ http://wiki.apache.org/hadoop/UsingLzoCompression]所以在运行之后
$ant compile-native
我收到很多错误:
帮助!
java - 尝试将 LZO 压缩与 MapReduce 一起使用
我想在 MapReduce 中使用 LZO 压缩,但在运行 MapReduce 作业时出现错误。我正在使用带有 Java 程序的 Ubuntu。我只是想在我的本地机器上运行它。我最初的错误是
下线
接着
我遵循了一些关于如何下载和配置文件以用于 LZO 压缩的在线和文本说明。在这里你可以在文件夹中看到我的 hadoop-lzo jarlib
文件
我已经改变了我的配置。这是我的 core-site.xml
和我的 mapred-site.xml
我还用这些行在同一个 conf 文件夹中修改了我的 hadoop-env.sh
如果你对什么感兴趣/home/hadoop/lib/native/lib/lib
对于它的价值,这是我的 Driver 类,它完成了所有的压缩
它编译没有错误。
我担心我对配置和其他步骤缺乏了解会导致我走上错误的道路,也许对于那些比我有更好理解的人来说,我错过了一些简单的东西。谢谢你走到这一步。我知道这是一个很长的帖子。
java - 使用 lzo 压缩创建 Hive 表,无法找到扩展名为 .lzo 的文件
我通过在 hive 命令提示符下设置以下属性创建了一个 Hive 表:
创建表语句:
现在我去这个位置 /users/JOBDATA/comp 并找到一个名为 000000_0.deflate 的文件
我不确定这是压缩文件,但当我下载它时,它不可读。如果是,那么为什么它没有 .lzo 扩展名?
如果不是,我在哪里可以找到 .lzo 文件?
最后我如何使用java解压它?谢谢
hadoop - S3 上的 LZO 文件问题
我在 HDFS 中有 3 个 LZO 压缩文件及其对应的索引文件。
我们将这些文件复制到 Amazon S3 并创建 Hive 外部表进行分析。
以下是我们面临的问题,
你能告诉我S3发生了什么吗?它在我们的 YARN 集群中运行良好。
scala - 在 Spark 中读取 Avro 容器文件
我正在处理一个需要从 HDFS 读取 Avro 容器文件并使用 Spark 进行分析的场景。
输入文件目录: hdfs: ///user/learner/20151223/.lzo*
注意:输入 Avro 文件是 lzo 压缩的。
当我运行上面的命令时,它会抛出一个错误:
这是有道理的,因为方法 read.avro() 期望 .avro 扩展文件作为输入。所以我提取输入的 .lzo 文件并将其重命名为 .avro。我能够正确读取 avro 文件中的数据。
有没有办法在 spark 中读取 lzo 压缩的 Avro 文件?
解决方案有效,但是!
我找到了解决这个问题的方法。我创建了一个外壳包装器,其中我使用以下方式将 .lzo 解压缩为 .avro 文件格式:
我成功地解压了 lzo 文件,但问题是我有至少 5000 个压缩格式的文件。解压缩和逐个转换需要将近 1 个多小时才能运行此作业。
有什么办法可以批量解压吗?
再次感谢 !