问题标签 [snappy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 在 snappy 压缩列系列上运行 hadoop 作业
我正在尝试转储压缩列族的猪关系。它是一个单列,其值为 json blob。它通过 snappy 压缩进行压缩,值验证器是 BytesType。创建关系并转储后,我得到了垃圾。这是描述:
然后我:
我也试过:
但是当我转储它时,它仍然看起来像它的二进制文件。
压缩不是透明处理还是我只是错过了什么?我做了一些谷歌搜索,但没有看到任何关于这个主题的内容。我也在使用 Datastax Enterprise。3.1。提前致谢!
hadoop - org.apache.hadoop.mapred.YarnChild:运行子错误:java.lang.OutOfMemoryError:Java 堆空间
我有一个 90MB 的 snappy 压缩文件,我试图将其用作 AWS EMR 中 AMI 3.0.4 上 Hadoop 2.2.0 的输入。
在尝试读取文件时,我的记录阅读器立即收到以下异常:
我使用默认内存和 io.sort.mb 在 AWS 的 m1.xlarge 上运行。如果我们解压缩文件并将其用作输入,则一切正常。问题是我们有大量的压缩文件,不想到处解压。
我不确定我们的代码中是否缺少配置设置或布线。不知道如何进行。
hadoop - Hive ORC 压缩
我在 hive v0.12.0 中运行以下代码,我希望使用不同的方法压缩三个表,因此文件的大小和内容应该不同。
当我使用 describe 或通过 Hue 检查表元数据时,我得到:
在元数据中它显示压缩=FALSE,但我不知道如何更改它以及这将如何影响。
但是,如果我比较表的数据,它们都是二进制相同的。
我试图更改/删除这些选项,但没有区别:
另外我尝试使用不同的源表(存储为 TEXTFILE),没有区别。
有什么想法或建议吗?
java - 如何在 Java 中正确实现 LZ4、Snappy 或等效压缩技术?
我已经尝试将 Java 版本的 LZ4 实现到一种尝试从大型文本文件中搜索数据的搜索引擎类型的程序中。我只是压缩了输出流并将其存储到 txt 文件或没有名称的文件中。但是,我意识到所谓的压缩文件并没有减小大小,但它的大小甚至比原始文件还要大。
最后我不得不求助于 zip4j,因为它对我有用。
我想知道如何使用 LZ4 或 Snappy 的 jar 来正确压缩/解压缩?
另外,我如何使用这样的算法来压缩一个文件夹,里面有很多文件?
谢谢!
javascript - snappy的kafka node js客户端压缩问题
我正在使用 kafka-node ( https://github.com/SOHU-Co/kafka-node ) 消费者来检索数据。我认为我得到的数据是用 SNAPPY 压缩的。得到数据后如何解压。我尝试使用 node-snappy ( https://github.com/kesla/node-snappy ) 来解压缩数据,但它没有用。
库中是否有任何选项可以将压缩设置为无?
任何人都使用 kafka-node 库从 kafka 获取数据..??
谢谢,陈杜
orientdb - 如何在没有 Snappy 的情况下运行 OrientDB?
我们在其嵌入式 Java 模式下使用 OrientDB(不是作为单独的服务器进程),并且希望避免从其执行 Snappy /tmp
(出于安全原因)。
我的理解是 Snappy 用于压缩。我在 OrientDB 服务器的 XML 配置文件中找到了一些关于禁用压缩的引用,但这不适用于我们。浏览源代码,看起来可能有一个ALTER
命令可能会更改压缩设置,但是 a) 我看不到该命令是什么,并且 b) 在那时运行它可能为时已晚,因为 snappy可能已经加载。
另一种选择是,如果我们可以将snappy.so
库永久安装在服务器上,并让 OrientDB 使用该副本。我怀疑这是不可能的,但我想我会提到它以防万一。
我们使用的是 OrientDB 1.7.4。
hadoop - 无法让 hadoop 看到 snappy
我在 rhel7 64 位。我显然设法从源代码构建了 hadoop 2.4.1 发行版。在此之前,我从源代码构建了 snappy 并安装了它。然后我建立了hadoop dist。和
然而,当我查看时,$HADOOP_HOME/lib/native
我看到了 hdfs 和 hadoop 库,但并不活泼。所以当我运行hadoop checknative
它说我没有安装 snappy。此外,我下载了 hadoop-snappy,并编译了 /that/ 并生成了 snappy 库。我将这些复制到 $HADOOP_HOME/lib/native /and/ 到 $HADOOP_HOME/lib 只是为了额外的措施。还是,hadoop checknative
没看到!
java - maven-shade-plugin 不支持 java.library.path
如果我有这样的代码:
这适用于命令行中的 -Djava.library.path=/usr/lib/hadoop/lib/native/ 。该表是 Snappy 压缩的
我需要一个 uber-jar,因此使用 maven-shade-plugin 来创建它。
现在,即使我在命令行中指定 -Djava.library.path=/usr/lib/hadoop/lib/native/,相同的代码也不起作用
错误是:
sql - 使用 Sqoop 和 Snappy 压缩从 Hive 读取值
我希望使用另一种方法来压缩文件以提高读/写性能,我探索的途径之一是使用 Snappy 压缩。
到目前为止,它一直很好,并且已经能够将其放入 HDFS 并使用 -text 命令解压缩以查看值。真正的问题发生在我尝试将数据导入配置单元时。
当我将数据导入配置单元时,我创建了一个简单的外部表以及设置参数以读取 Snappy 压缩文件......
当我从测试中运行 SELECT COUNT(*) 时;我得到正确的行值;但是,如果我运行 SELECT * FROM test limit 100; 我看到的都是 NULL 值。为什么会这样?有什么想法吗?
google-api - 如何通过 hadoop 集群为 Google Compute Engine 启用 Snappy/Snappy Codec
我正在尝试针对我们位于 Google Cloud Storage 上的压缩数据在 Google Compute 引擎上运行 Hadoop Job。尝试通过 SequenceFileInputFormat 读取数据时,出现以下异常:
- 似乎 SnappyCodec 不可用。我应该如何在谷歌计算引擎上的 Hadoop 集群中包含/启用 Snappy?
- 在部署 Hadoop 集群时,我可以通过 bdutil 脚本部署 Snappy lib(如果必须的话)吗?
- 在 Google Compute 引擎上部署的 Hadoop 集群上部署第三方库/jar 的最佳方法是什么?
非常感谢