问题标签 [parquet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
13048 浏览

java - 如何读写地图从/到 Java 或 Scala 中的镶木地板文件?

正在寻找一个关于如何Map<String, Object>在 Java 或 Scala 中读取和写入 parquet 文件的简明示例?

这是预期的结构,com.fasterxml.jackson.databind.ObjectMapper 在 Java 中用作序列化程序(即使用 parquet 寻找等价物):

0 投票
2 回答
4833 浏览

apache-spark - Spark 与 Avro、Kryo 和 Parquet

我很难理解 Avro、Kryo 和 Parquet 在 Spark 环境中到底做了什么。它们都与序列化有关,但我已经看到它们一起使用,所以它们不能做同样的事情。

Parquet 将其自身描述为一种列式存储格式,我有点明白这一点,但是当我保存 Parquet 文件时,Arvo 或 Kryo 可以与它​​有什么关系吗?或者它们仅在火花工作期间相关,即。用于在洗牌期间通过网络发送对象或溢出到磁盘?Arvo 和 Kryo 有何不同?将它们一起使用会发生什么?

0 投票
3 回答
9753 浏览

hive - 设置 parquet snappy 输出文件大小是 hive?

我正在尝试在 dfs.block.size 边界上拆分由 hive INSERT OVERWRITE TABLE... 创建的 parquet/snappy 文件,因为当分区中的文件大于块大小时,impala 会发出警告。

impala 记录以下警告:

代码:

至于INSERThql 脚本:

问题是文件没收无处不在:

无论dfs.block.size设置(和上述其他设置)增加到256M512M1G(对于不同的数据集),问题都是相同的。

有没有办法/设置来确保输出 parquet/snappy 文件的拆分刚好低于 hdfs 块大小?

0 投票
0 回答
476 浏览

hadoop - 出现错误,错误:org.kitesdk.data.DatasetIOException:无法解码 Avro 值

我正在尝试将数据从 redshift 加载到hdfs(parquet format), 使用sqoop(--as-parquetfile).

有没有其他人遇到过同样的错误(见下文)?如果是这样,您是如何解决问题的?

感谢您提出的任何建议。

0 投票
0 回答
136 浏览

c++ - 位向量在处理镶木地板文件格式时相交

我正在处理镶木地板文件格式。例如:

一组数据:

1 23 4 5 67 8无 无9 10 11 12 13 14

我有一个位向量来指示空元素:

1 1 0 1 1 1 1 0 1 1 0 0 1 1 1 1 1 1

并且只存储非空元素:

1 2 3 4 5 6 7 8 9 10 11 12 13 14

我想评估一个谓词: big then 5

我将非空元素与 5 进行了比较,得到了一个位向量:

0 0 0 0 0 1 1 1 1 1 1 1 1 1

我想为所有元素获得一个位向量:

0 0 0 0 0 0 1 0 1 1 0 0 1 1 1 1 1 1

粗体中的 0 是 null 元素,应该是 false。

我的代码很丑陋,有没有办法让它变快?太谢谢了!

0 投票
1 回答
7660 浏览

hadoop - 运行 Sqoop 时出现异常:使用 -query 和 --as-parquetfile 的 java.lang.NullPointerException

我正在尝试将表数据从 Redshift 导入 HDFS(使用 Parquet 格式)并面临如下所示的错误:

使用的命令行查询:

sqoop import --driver "com.amazon.redshift.jdbc41.Driver" --connect "jdbc:postgresql://:5439/events" --username "username" --password "password" --query "SELECT * FROM mobile_og.pages WHERE \$CONDITIONS" --split-by anonymous_id --target-dir /user/huuser/pq_mobile_og_pages_2 --as-parquetfile。

--as-parquetfile从上述命令行查询中删除选项时,它工作正常。

0 投票
3 回答
3499 浏览

hadoop - 将 Parquet 数据从 HDFS 收集到本地文件系统

给定分布在 HDFS 上的 Parquet 数据集(元数据文件 + 可能.parquet部分),如何正确合并部分并将数据收集到本地文件系统中?dfs -getmerge ...不起作用-它将元数据与实际的镶木地板文件合并..

0 投票
1 回答
995 浏览

hive - Hive Parquet 表中的小数字段问题

我在蜂巢中有一张镶木地板桌子,里面有一个类型的字段

现在,当我在猪中使用parquet.pig.ParquetLoader,阅读此表时decimal field is getting converted to bytearray and giving junk values。这个问题有什么解决办法吗?

0 投票
1 回答
1069 浏览

amazon-s3 - 在简单的 SparkSQL 查询中未修剪分区

我正在尝试从 SparkSQL 表(S3 中的镶木地板)中有效地选择单个分区。但是,我看到 Spark 打开表中所有 parquet 文件的证据,而不仅仅是那些通过过滤器的文件。这使得对于具有大量分区的表来说,即使是小的查询也很昂贵。

这是一个说明性示例。我使用 SparkSQL 和 Hive 元存储在 S3 上创建了一个简单的分区表:

在随后的会话中,我想选择该表的一个子集:

在随后打印的日志中,我看到应该进行修剪:

但后来我看到所有分区都打开了镶木地板文件:

只有三个分区,这不是问题——但有数千个,它会导致明显的延迟。为什么打开所有这些不相关的文件?

0 投票
4 回答
2088 浏览

apache - Build failure - Apache Parquet-MR source (mvn install failure)

I am getting following error while trying to execute "mvn clean install" for building parquet-mr source obtained from https://github.com/apache/parquet-mr

"mvn --version" is:

Can someone guide me on the same ? Any help on this is highly appreciated. Thank you!