问题标签 [hadoop-lzo]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mapreduce - hive sql添加排序或分发然后结果文件大小比以前大
我的蜂巢表都是 lzo 压缩类型。我有两个这样的 hive-sql:
[1]
因为[1] sql 没有reduce,所以会创建很多小文件。
[2]
唯一不同的是最后一行,sql [2] 有“排序依据”。
数据数量和内容相同,但是[2]的文件大小比[1]大,我们的hdfs文件大小几乎是以前的1倍。
你能帮我找出原因吗。
apache-spark - 在 spark 中读取未压缩的 thrift 文件
我试图让 spark 从 s3 读取未压缩的节俭文件。到目前为止,它还没有工作。
- 数据作为未压缩的 thrift 文件加载到 s3 中。来源是 AWS Kinesis Firehose。
- 我有一个工具可以毫无问题地反序列化文件,所以我知道节俭的序列化/反序列化是有效的。
- 在火花中,我使用 newAPIHadoopFile
- 使用大象鸟的 LzoThriftBlockInputFormat,我能够成功读取 lzo 压缩的节俭文件
- 我不知道应该使用什么 InputFormat 来读取未压缩的节俭文件。
那里的任何输入格式都可能吗?我必须实现自己的吗?
java - Java Hadoop-lzo 找到接口,但需要类 LzoTextInputFormat
我正在尝试使用Hadoop-LZO包(使用此处的步骤构建)。似乎一切都成功了,因为我能够通过以下方式将我的 lzo 文件转换为索引文件(这big_file.lzo.index
将按预期返回):
然后我在我的 mapreduce 作业中使用这些文件(big_file.lzo.index
作为输入):
我收到以下错误:
我已经看到其他问题在回答这个问题,他们说要针对 Hadoop v2 重新构建。所以我从 Github 重新下载了所有内容并运行
构建我的路径时如下:
我真的不确定我做错了什么。如何ant
查看 Hadoop v2?
编辑1:可能需要注意:当我同时运行我的mapreduce作业(调用LzoTextInputFormat.class
)和lzo转换器(on big_file.lzo
)时,我的类路径如下
编辑 2:如果我按如下方式索引 lzo 文件(即尝试使用DistributedLzoIndexer
而不是通过 mapreduce 作业进行索引LzoIndexer
)我会收到类似的错误:
hadoop - 索引后的 Hadoop lzo 单拆分
我有一个 LZO 压缩文件/data/mydata.lzo
,想通过一些 MapReduce 代码运行它。我首先使用hadoop-lzo包使用以下命令创建一个索引文件:
这运行成功
并创建文件/data/mydata.lzo.index
。我现在想通过其他一些 Hadoop Java 代码运行它
它执行正确,但需要永远。我注意到它只拆分文件一次(当我在非 LZO 文件上运行相同的作业时,它拆分了大约 25 次)
我究竟做错了什么?
hadoop-lzo 文档有点欠缺。它说“现在在新文件上运行任何作业,比如 wordcount ”。我首先认为我应该使用该/data/mydata.lzo.index
文件作为我的输入,但使用它时我得到一个空输出。该文档还说“请注意,如果您忘记索引 .lzo 文件,该作业将起作用,但将在单个拆分中处理整个文件,这将降低效率。 ”因此无论出于何种原因,它都看不到该index
文件。
传递索引文件的正确方法是什么?
编辑:根据GitHub 上的这个问题,会自动推断索引文件并将根据文件大小进行拆分。仍然不知道为什么我得到一个拆分。
apache-spark - 在 Spark DataFrames 中读取 json 行的 LZO 文件
我在 HDFS 中有一个大型索引 lzo 文件,我想在 spark 数据帧中读取它。该文件包含多行 json 文档。
posts_dir
具有以下内容:
以下工作但不使用索引,因此需要很长时间,因为它只使用一个映射器。
有没有办法让它利用索引?
hadoop - 文件压缩格式如何影响我的火花处理
我对理解大数据世界中的可拆分和不可拆分文件格式感到困惑。我使用的是 zip 文件格式,我知道 zip 文件是不可拆分的,当我处理该文件时,我必须使用ZipFileInputFormat
基本上解压缩然后处理它的方式。
然后我开始gzip
格式化,我可以在我的 spark 工作中处理它,但我总是怀疑为什么人们说gzip
文件格式也不能拆分?
它将如何影响我的火花工作表现?
因此,例如,如果有 5k 个大小不同的 gzip 文件,其中一些是 1 kb,其中一些是 10gb,如果我要在 spark 中加载它会发生什么?
我应该在我的情况下使用 gzip 还是任何其他压缩?如果是,那为什么?
还有性能上有什么区别
CASE1:如果我有一个非常大的(10gb)gzip 文件,然后我将它加载到 spark 中并运行计数
CASE2:如果我有一些可拆分(bzip2)相同大小的文件,然后将其加载到 spark 中并运行计数
hadoop - 未找到压缩编解码器 com.hadoop.compression.lzo.LzoCodec
尝试使用压缩运行 mapreduce 作业
使用 parcels 将 lzo 分发到集群中的所有节点。即使那样我也遇到了以下错误
java - native-lzo 不可用错误 | 视窗 10 | 爪哇
我正在尝试在我的镶木地板中使用 lzo 压缩编解码器。我不需要 Hadoop,所以我的 Hadoop_Home 路径中只有 hadoop.dll 和 winutils.exe。在我的 Windows 系统中,我尝试按照文档中的说明构建 lzo2.dll,但不知道如何使用它。我浏览了 twitter fork hadoop-lzo,但 Windows 的说明不清楚。请告诉我如何让这个编解码器在 Windows 中运行。我下载了hadoop-3.2.1、lzo-2.1.0、hadoop-lzo。
在 hadoop-lzo 中使用 mvn clean install 会给我 gplcompression.dll not found 错误。
apache-spark - 为 Spark 准备 lzo 或 lz4 文件
我正在尝试为我的 spark 应用程序选择正确的文件交换格式。我在 Kubernetes 上使用Spark 2.4.7
+ 。Haddop 2.10
我的应用程序从 S3 下载 CSV 文件并进行处理。该文件由第 3 方公司提供。
我正在考虑让他们使用lz4
,lzo
或其他可拆分压缩。但是,我可以看到命令行工具文件格式与 Hadooplz4
或lzo
编解码器不兼容(我试过lzop
和lz4
cli)
您是否知道任何 CLI 工具允许以 Hadoop 编解码器可以理解的格式准备 lz4 或 lzo 压缩文件?
hadoop - Hive 找不到 LZO 编解码器
执行时发生错误select * from xxx
:
已完成故障排除:
检查了位于 $HADOOP_HOME/share/hadoop/common 中的所有 hadoop 节点的 hadoop-lzo.jar:
检查在 $HADOOP_HOME/etc/hadoop/core-site.xml 中为所有 hadoop 节点配置的 LZO 编解码器:
我还在 mapreduce 中测试了读取 lzo 文件,它工作正常,所以我认为 hadoop-lzo 配置正确,但它在 hive 中不起作用。