问题标签 [snappy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
369 浏览

hadoop - 如何在 Hadoop 1.2.1 上安装 snappy

snappy 与 hadoop 集成还是需要与 hadoop 1.2.1 单独安装。我在 mapred-site.xml 文件中添加了以下属性以压缩我的地图文件。

它给出了 snappy_library 未加载的错误。我想我必须在使用编解码器之前安装它。请帮助。

0 投票
0 回答
832 浏览

hive - 使用 HCatWriter 从 Pig 存储时如何在 Avro 支持的 Hive 表上启用 Snappy 压缩

我有一个这样创建的 Hive 表:

我现在想通过 Pig 脚本将数据加载到此表中:

到目前为止一切都很好(数据存储到 Avro 文件中),但我希望使用 snappy 编解码器对其进行压缩。

我试图添加(除其他外)

到猪脚本,但它似乎没有任何区别。

如果我使用 Hive 查询将数据插入到表中,我可以在表的基础文件中看到它正在使用 snappy 压缩。

我有什么方法可以告诉 HCatWriter 告诉 Hive 使用 Snappy 压缩写入表?

谢谢你的帮助。

0 投票
0 回答
54 浏览

hadoop - 在 Apache hadoop 1.2.1 上安装 snaapy 时生成错误

我在构建我的snappy. 我按照以下步骤操作:

  1. http://code.google.com/p/snappy/下载。
  2. 用命令解压它tar xvzf snappy-1.1.3
  3. 然后按照以下命令

hadoop@HadoopPseudoVM:~$ mv google-snappy-0852af7 snappy1 hadoop@HadoopPseudoVM:~$ vi /home/hadoop/.bashrc
hadoop@HadoopPseudoVM:~$ exec bash
hadoop@HadoopPseudoVM:~$ mvn package -Dsnappy.prefix=/home /hadoop/snappy1

该错误表明我没有提到该项目。怎么提?

0 投票
2 回答
1357 浏览

hadoop - 如何在使用 Google Cloud Dataproc 启动的 Spark 集群中启用 Snappy 编解码器支持?

尝试从使用Google Cloud Dataproc启动的 Spark 集群中读取 Snappy 压缩序列文件时,我收到以下警告:

在这种情况下启用 Snappy 编解码器支持的最佳方法是什么?

0 投票
0 回答
315 浏览

c++ - 如何将google snappy导入eclipse C++项目

我有一个 Eclipse C++ 项目并将 google snappy 项目文件 ( http://google.github.io/snappy/ ) 下载到 eclipse 中。

一旦我尝试编译,我会收到一条错误消息:

该文件不存在,但是当我进入文件 snappy-stats-public.h.in 时,它说文件(丢失)将在配置时生成。有什么我想念的东西让这个工作吗?

0 投票
1 回答
1773 浏览

hadoop - HBase Snappy 压缩 - 无法创建表,CompressionTest 成功

我一直在尝试解决与 Snappy 压缩相关的 HBase 有线问题。以下是与此问题相关的所有内容的详细说明:

  1. 问题描述:当我尝试在 HBase shell 中使用 Snappy 压缩创建表时:(调试模式下的详细 HBase shell 日志见附件)

hbase(main):001:0> 创建 't3', { NAME => 'cf1', COMPRESSION => 'SNAPPY' }

  1. CompressionTest 结果:当我运行压缩测试时,它成功了:
  1. 本机库检查结果:当我对 HBase 运行 hadoop 本机库检查时:

我设置了以下 HBase-site.xml 属性,HMaster 和 RegionServer 都能够正常启动和工作。

  1. 任何 HBase 主机中的 HBase shell 进程:

我们可以看到属性

工艺参数。

并且“ls -l /solono/env/TestClusterHBase/lib/native/Linux-amd64-64”显示:

有人可以帮忙解决这个问题吗?任何建议或线索将不胜感激!

提前致谢!!

0 投票
7 回答
42930 浏览

python - 使用 Python 编写 Parquet 文件的方法?

我很难找到一个允许使用 Python 编写 Parquet 文件的库。如果我可以结合使用 Snappy 或类似的压缩机制,则可以加分。

到目前为止,我发现的唯一方法是使用带有pyspark.sql.DataFrameParquet 支持的 Spark。

我有一些脚本需要编写不是 Spark 作业的 Parquet 文件。有什么方法可以在 Python 中编写不涉及的 Parquet 文件pyspark.sql吗?

0 投票
1 回答
540 浏览

rust - 使用带有缓冲区的 Snappy 压缩

我试图找出在 Rust中使用缓冲区和snappy的最佳方法。之前,我正在使用BufWriter. 但现在我也想添加压缩。上面 snappy crate 的compress函数需要 a&[u8]作为参数,但BufWriter不会让我访问它的缓冲区以传递给 snappy。我已经研究了两种方法来解决这个问题。

在第一种方式中,我使用向量 (with_capacity) 而不是BufWriter我的缓冲区,并创建了一个写入函数,以确保写入向量不会导致它重新分配。如果可以,我会压缩缓冲区中当前的内容,然后将其写入文件并释放向量(排水功能)。我是根据什么来写的BufWriter。缺点是因为它是一个向量,如果缓冲区超出范围,它不会自动将缓冲区刷新到文件中。我必须在编写文件的范围内手动执行此操作,这是我不喜欢的。

另一方面,我或多或少地复制了BufWriter源代码,只是更改了flush函数以在将其输出到文件之前压缩其缓冲区(向量)。这种方式似乎是最好的,但我只是不喜欢复制代码的想法。

继续使用这两个选项或其他选项的最佳方法是什么?

如果相关,我写入缓冲区的对象总是相同的大小,我的缓冲区大小是对象大小的倍数。

0 投票
1 回答
157 浏览

c++ - 为 Capn Pronto 和 Snappy 链接 C++ 库

我正在尝试编译一个 c++ 项目,它需要 capn pronto 和 snappy。我已经安装了这些使用:

但我认为我现在需要链接这些库,因为当我尝试编译我的项目时出现以下错误:

kj 是 Capn Pronto 中包含的一个库。我尝试在制作时使用命令 -lkj 链接它,但这不起作用。

0 投票
2 回答
380 浏览

c++ - 需要 libsnappy 的 C++ 程序

我正在尝试制作和构建一个需要 libsnappy 和 Capn Proto的 C++ 程序(可在此处获取https://github.com/mortehu/text-classifier )。我相信我在运行以下命令后遇到了 libsnappy 问题:

我收到错误“base/columnfile.cc:7:10: fatal error: 'snappy.h' file not found”

我曾尝试在 make 阶段链接与 libsnappy 相关的各种文件夹,但无济于事。我还尝试以几种不同的方式安装 snappy,例如:

但我也不确定图书馆的保存位置。理想情况下,我可以找到包含“snappy.h”的文件夹,并且可以在制作阶段链接它。任何有关我出错的地方的帮助将不胜感激,谢谢。