问题标签 [snappy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 如何在 Hadoop 1.2.1 上安装 snappy
snappy 与 hadoop 集成还是需要与 hadoop 1.2.1 单独安装。我在 mapred-site.xml 文件中添加了以下属性以压缩我的地图文件。
它给出了 snappy_library 未加载的错误。我想我必须在使用编解码器之前安装它。请帮助。
hive - 使用 HCatWriter 从 Pig 存储时如何在 Avro 支持的 Hive 表上启用 Snappy 压缩
我有一个这样创建的 Hive 表:
我现在想通过 Pig 脚本将数据加载到此表中:
到目前为止一切都很好(数据存储到 Avro 文件中),但我希望使用 snappy 编解码器对其进行压缩。
我试图添加(除其他外)
到猪脚本,但它似乎没有任何区别。
如果我使用 Hive 查询将数据插入到表中,我可以在表的基础文件中看到它正在使用 snappy 压缩。
我有什么方法可以告诉 HCatWriter 告诉 Hive 使用 Snappy 压缩写入表?
谢谢你的帮助。
hadoop - 在 Apache hadoop 1.2.1 上安装 snaapy 时生成错误
我在构建我的snappy
. 我按照以下步骤操作:
- 从http://code.google.com/p/snappy/下载。
- 用命令解压它
tar xvzf snappy-1.1.3
- 然后按照以下命令
hadoop@HadoopPseudoVM:~$ mv google-snappy-0852af7 snappy1 hadoop@HadoopPseudoVM:~$ vi /home/hadoop/.bashrc
hadoop@HadoopPseudoVM:~$ exec bash
hadoop@HadoopPseudoVM:~$ mvn package -Dsnappy.prefix=/home /hadoop/snappy1
该错误表明我没有提到该项目。怎么提?
hadoop - 如何在使用 Google Cloud Dataproc 启动的 Spark 集群中启用 Snappy 编解码器支持?
尝试从使用Google Cloud Dataproc启动的 Spark 集群中读取 Snappy 压缩序列文件时,我收到以下警告:
在这种情况下启用 Snappy 编解码器支持的最佳方法是什么?
c++ - 如何将google snappy导入eclipse C++项目
我有一个 Eclipse C++ 项目并将 google snappy 项目文件 ( http://google.github.io/snappy/ ) 下载到 eclipse 中。
一旦我尝试编译,我会收到一条错误消息:
该文件不存在,但是当我进入文件 snappy-stats-public.h.in 时,它说文件(丢失)将在配置时生成。有什么我想念的东西让这个工作吗?
hadoop - HBase Snappy 压缩 - 无法创建表,CompressionTest 成功
我一直在尝试解决与 Snappy 压缩相关的 HBase 有线问题。以下是与此问题相关的所有内容的详细说明:
- 问题描述:当我尝试在 HBase shell 中使用 Snappy 压缩创建表时:(调试模式下的详细 HBase shell 日志见附件)
hbase(main):001:0> 创建 't3', { NAME => 'cf1', COMPRESSION => 'SNAPPY' }
- CompressionTest 结果:当我运行压缩测试时,它成功了:
- 本机库检查结果:当我对 HBase 运行 hadoop 本机库检查时:
我设置了以下 HBase-site.xml 属性,HMaster 和 RegionServer 都能够正常启动和工作。
- 任何 HBase 主机中的 HBase shell 进程:
我们可以看到属性
工艺参数。并且“ls -l /solono/env/TestClusterHBase/lib/native/Linux-amd64-64”显示:
有人可以帮忙解决这个问题吗?任何建议或线索将不胜感激!
提前致谢!!
python - 使用 Python 编写 Parquet 文件的方法?
我很难找到一个允许使用 Python 编写 Parquet 文件的库。如果我可以结合使用 Snappy 或类似的压缩机制,则可以加分。
到目前为止,我发现的唯一方法是使用带有pyspark.sql.DataFrame
Parquet 支持的 Spark。
我有一些脚本需要编写不是 Spark 作业的 Parquet 文件。有什么方法可以在 Python 中编写不涉及的 Parquet 文件pyspark.sql
吗?
rust - 使用带有缓冲区的 Snappy 压缩
我试图找出在 Rust中使用缓冲区和snappy的最佳方法。之前,我正在使用BufWriter
. 但现在我也想添加压缩。上面 snappy crate 的compress
函数需要 a&[u8]
作为参数,但BufWriter
不会让我访问它的缓冲区以传递给 snappy。我已经研究了两种方法来解决这个问题。
在第一种方式中,我使用向量 (with_capacity) 而不是BufWriter
我的缓冲区,并创建了一个写入函数,以确保写入向量不会导致它重新分配。如果可以,我会压缩缓冲区中当前的内容,然后将其写入文件并释放向量(排水功能)。我是根据什么来写的BufWriter
。缺点是因为它是一个向量,如果缓冲区超出范围,它不会自动将缓冲区刷新到文件中。我必须在编写文件的范围内手动执行此操作,这是我不喜欢的。
另一方面,我或多或少地复制了BufWriter
源代码,只是更改了flush
函数以在将其输出到文件之前压缩其缓冲区(向量)。这种方式似乎是最好的,但我只是不喜欢复制代码的想法。
继续使用这两个选项或其他选项的最佳方法是什么?
如果相关,我写入缓冲区的对象总是相同的大小,我的缓冲区大小是对象大小的倍数。
c++ - 为 Capn Pronto 和 Snappy 链接 C++ 库
我正在尝试编译一个 c++ 项目,它需要 capn pronto 和 snappy。我已经安装了这些使用:
但我认为我现在需要链接这些库,因为当我尝试编译我的项目时出现以下错误:
kj 是 Capn Pronto 中包含的一个库。我尝试在制作时使用命令 -lkj 链接它,但这不起作用。
c++ - 需要 libsnappy 的 C++ 程序
我正在尝试制作和构建一个需要 libsnappy 和 Capn Proto的 C++ 程序(可在此处获取https://github.com/mortehu/text-classifier )。我相信我在运行以下命令后遇到了 libsnappy 问题:
我收到错误“base/columnfile.cc:7:10: fatal error: 'snappy.h' file not found”
我曾尝试在 make 阶段链接与 libsnappy 相关的各种文件夹,但无济于事。我还尝试以几种不同的方式安装 snappy,例如:
和
但我也不确定图书馆的保存位置。理想情况下,我可以找到包含“snappy.h”的文件夹,并且可以在制作阶段链接它。任何有关我出错的地方的帮助将不胜感激,谢谢。