问题标签 [snappy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Snappy 或 LZO 用于日志,然后由 hadoop 使用
我有大量的服务。我记录事件。每隔几分钟,我使用 gzip 压缩日志并将它们旋转到 S3。从那里,我们通过 Hive 使用 Amazon 的 Hadoop(弹性 mapreduce)处理日志。
现在在服务器上,当我们压缩和旋转日志时,每隔几分钟就会出现一次 CPU 峰值。我们希望从 gzip 切换到 lzo 或 snappy 以帮助减少这种 cpu 峰值。我们是一个 cpu-bound 服务,所以我们愿意在轮换时用更大的日志文件换取更少的 cpu 消耗。
我一直在阅读有关 LZO 和 Snappy(又名 zippy)的大量内容。LZO 的优点之一是它在 HDFS 中是可拆分的。但是,我们的文件是通过 Gzip 压缩的 ~15MB,所以我认为我们不会达到 HDFS 中 64MB 的默认块大小,所以这无关紧要。即使是这样,我们也应该能够将默认值设置为 128MB。
现在,我想尝试一下 snappy,因为它似乎稍微快一些/占用更少的资源。亚马逊的 yum 存储库中似乎都没有,所以我们可能无论如何都必须自定义安装/构建——所以在工程时间方面并没有太大的权衡。我听说过一些关于 LZO 许可证的担忧,但我想如果它不靠近我们的代码,我会发现它只是安装在我们的服务器上,对吧?
那么,我应该选择哪个?一个在 Hadoop 中的性能会比另一个更好吗?有没有人用这两种实现方式做到这一点并且有任何他们可以分享的问题?
cassandra - Cassandra 压缩代码库
我想知道当我在 Cassandra 的列族中插入一个新列时,磁盘上究竟存储了多少字节。我的主要问题是,当使用 Snappy 压缩列时,我需要知道这些信息,我知道原始字节的计算,但是由于数据的可变性,我无法正确估计压缩率。任何有关在 Cassandra 代码库中哪里可以找到这么多字节的信息都将受到欢迎。
提前致谢。
nsdata - Snappy 压缩仅返回 SNAPPY_INVALID_INPUT
我在 NSData 上写了一个简短的类别,它使用 libSnappy 进行压缩。它在压缩过程中就像一个魅力,但是解压缩代码导致SNAPPY_INVALID_INPUT
. 有趣的是,尽管操作码无效,但 snappy 仍然result
用未压缩的数据填充 my 的缓冲区。有人知道为什么 snappy 把这个扔给我吗?
我应该注意,正在压缩/解压缩的数据是NSKeyedArchiver
调用的结果。
hadoop - 在 pig 中读取 snappy 压缩输入
我有一个文件,我试图将它加载到用 snappy 压缩的 pig 中。我在 grunt 中设置了配置选项,就像在这个 jira 问题中描述的那样,但我仍然在结果中获得压缩数据。
当我运行该作业时,它确实说:org.apache.hadoop.io.compress.snappy.LoadSnappy - Snappy 本机库可用
对于这项工作,我使用 PigStorage() as (x, y, z) 做了一个简单
的 a = load '/path/to/snappy/file'
然后:
转储数据
将输出压缩数据。
有谁知道我可以做些什么来正确读取数据?提前致谢。
python - 无法在 Python 中通过 Snappy 解压缩
在我的项目中,我在 Python 的 HTML 页面中使用Snappy压缩。我成功地压缩了 HTML 页面。html_page
包含网站的 html 字符串。
但是我在解压缩压缩数据时遇到了问题:
你能帮我解决一下 Snappy 的压缩和解压问题吗?或者哪种是通过网络传输数据的最佳压缩和解压缩方式?
java - ElasticSearch:xerial.snappy 错误 FAILED_TO_LOAD_NATIVE_LIBRARY
我正在尝试运行 ElasticSearch 客户端并收到 xerial.snappy 错误 FAILED_TO_LOAD_NATIVE_LIBRARY。
我正在使用弹性搜索 v. 0.20.5:
并且还在我的依赖项中添加了 snappy v.1.0.4.1(但它也没有帮助):
这是我得到的错误(我的应用程序继续运行,但我怀疑压缩库未在使用中)
我产生此问题的代码:
任何人都可以阐明这个问题吗?如何快速加载本机库?我目前在 Win7-64 上,但想在 AWS(centOS、RH 等)上运行
python - 无法在python中导入snappy
我使用名为 python-snappy 的包。这个包需要snappy库。因此,我通过以下命令成功下载并安装了 snappy,例如:
当我导入 snappy 时,我收到以下错误:
我正在使用 Python 2.7、snappy、python-snappy 和 Ubuntu 12.04 我该如何解决这个问题?谢谢
java - 弹性搜索升级后的 Snappy Java 异常
大家好,我最近将 Elastic Search 从 19.4 升级到 20.6,它所需的新依赖项之一是 snappy Java。我尝试了多个版本的 snappy,但无论看起来如何,我总是遇到异常我无法解决的启动:
大堆栈,这似乎表明压缩有问题。你们有什么线索我应该从哪里开始看吗?
hadoop - mvn 和 make 包错误
好的。这就是问题所在,它让我发疯了!!!我按照网上的说明安装了hadoop,运行文本时说无法加载snappy local library。据说要先安装snappy,再安装hadoop-snappy。我从谷歌代码下载 snappy-1.0.4 并执行以下操作: cd ../snappy-1.0.4 ./configure make sudo make install
那么问题出在: mvn package -Dsnappy.prefix=/usr/local
网上的帖子说默认snappy应该安装在/usr/local下。但是我得到了以下错误,无论我改变路径,仍然会出错:
您指定的目标需要执行一个项目,但目录中没有 POM。请确认您从正确的目录调用了 maven。
这是mvn的错误目录吗?还是snappy不合适?它说缺少应该是一个 .xml 的 pom,在我找不到的地方..
请帮忙!
hadoop - 我可以在没有完整安装 Hadoop 的情况下从本地客户端使用 Snappy 压缩吗?
我有一个 hadoop 集群,可以从本地机器访问以进行开发/调试。我的本地盒子中没有安装 hadoop;相反,我只使用客户端库(通过 Maven,FWIW)。
我目前正在尝试读取一些使用 Snappy 压缩压缩的序列文件。我收到一个错误:“本机 snappy 库不可用”。到目前为止,我能找到的有关解决此问题的所有信息看起来都假设您在客户端计算机上安装了完整的 Hadoop。他们都在谈论将libhadoop.so
和libsnappy.so
放在lib/native
您的 Hadoop 目录下。在我的开发机器上,我没有 Hadoop 目录。
虽然我想我可以完整安装 Hadoop,但我很想知道是否可以做一些更简单的事情。到目前为止,让我的过程发现这些库的各种尝试都失败了。我可能还没有找到正确的配置,但是根据所有关于使用 Snappy 的文档和线程,我不确定它是否可能(或者至少是直截了当的)。