问题标签 [parquet]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3127 问题

0 投票

3 回答

13048 浏览

java - 如何读写地图从/到 Java 或 Scala 中的镶木地板文件？

正在寻找一个关于如何Map<String, Object>在 Java 或 Scala 中读取和写入 parquet 文件的简明示例？

这是预期的结构，com.fasterxml.jackson.databind.ObjectMapper 在 Java 中用作序列化程序（即使用 parquet 寻找等价物）：

2015-06-01T04:10:09.110

0 投票

2 回答

4833 浏览

apache-spark - Spark 与 Avro、Kryo 和 Parquet

我很难理解 Avro、Kryo 和 Parquet 在 Spark 环境中到底做了什么。它们都与序列化有关，但我已经看到它们一起使用，所以它们不能做同样的事情。

Parquet 将其自身描述为一种列式存储格式，我有点明白这一点，但是当我保存 Parquet 文件时，Arvo 或 Kryo 可以与它有什么关系吗？或者它们仅在火花工作期间相关，即。用于在洗牌期间通过网络发送对象或溢出到磁盘？Arvo 和 Kryo 有何不同？将它们一起使用会发生什么？

apache-spark kryo parquet

2015-06-14T13:30:18.087

0 投票

3 回答

9753 浏览

hive - 设置 parquet snappy 输出文件大小是 hive？

我正在尝试在 dfs.block.size 边界上拆分由 hive INSERT OVERWRITE TABLE... 创建的 parquet/snappy 文件，因为当分区中的文件大于块大小时，impala 会发出警告。

impala 记录以下警告：

代码：

至于INSERThql 脚本：

问题是文件没收无处不在：

无论dfs.block.size设置（和上述其他设置）增加到256M，512M或1G（对于不同的数据集），问题都是相同的。

有没有办法/设置来确保输出 parquet/snappy 文件的拆分刚好低于 hdfs 块大小？

hive impala parquet snappy

2015-06-15T15:13:15.577

0 投票

0 回答

476 浏览

hadoop - 出现错误，错误：org.kitesdk.data.DatasetIOException：无法解码 Avro 值

我正在尝试将数据从 redshift 加载到hdfs(parquet format), 使用sqoop(--as-parquetfile).

有没有其他人遇到过同样的错误（见下文）？如果是这样，您是如何解决问题的？

感谢您提出的任何建议。

hadoop sqoop amazon-redshift parquet

2015-06-23T23:35:28.727

0 投票

0 回答

136 浏览

c++ - 位向量在处理镶木地板文件格式时相交

我正在处理镶木地板文件格式。例如：

一组数据：

1 2无3 4 5 6无7 8无无9 10 11 12 13 14

我有一个位向量来指示空元素：

1 1 0 1 1 1 1 0 1 1 0 0 1 1 1 1 1 1

并且只存储非空元素：

1 2 3 4 5 6 7 8 9 10 11 12 13 14

我想评估一个谓词： big then 5

我将非空元素与 5 进行了比较，得到了一个位向量：

0 0 0 0 0 1 1 1 1 1 1 1 1 1

我想为所有元素获得一个位向量：

0 0 0 0 0 0 1 0 1 1 0 0 1 1 1 1 1 1

粗体中的 0 是 null 元素，应该是 false。

我的代码很丑陋，有没有办法让它变快？太谢谢了！

c++parquet bitvector

2015-06-25T09:19:46.550

0 投票

1 回答

7660 浏览

hadoop - 运行 Sqoop 时出现异常：使用 -query 和 --as-parquetfile 的 java.lang.NullPointerException

我正在尝试将表数据从 Redshift 导入 HDFS（使用 Parquet 格式）并面临如下所示的错误：

使用的命令行查询：

sqoop import --driver "com.amazon.redshift.jdbc41.Driver" --connect "jdbc:postgresql://:5439/events" --username "username" --password "password" --query "SELECT * FROM mobile_og.pages WHERE \$CONDITIONS" --split-by anonymous_id --target-dir /user/huuser/pq_mobile_og_pages_2 --as-parquetfile。

--as-parquetfile从上述命令行查询中删除选项时，它工作正常。

hadoop sqoop parquet

2015-06-25T18:15:22.707

0 投票

3 回答

3499 浏览

hadoop - 将 Parquet 数据从 HDFS 收集到本地文件系统

给定分布在 HDFS 上的 Parquet 数据集（元数据文件 + 可能.parquet部分），如何正确合并部分并将数据收集到本地文件系统中？dfs -getmerge ...不起作用-它将元数据与实际的镶木地板文件合并..

hadoop hdfs parquet

2015-06-29T05:04:55.147

0 投票

1 回答

995 浏览

hive - Hive Parquet 表中的小数字段问题

我在蜂巢中有一张镶木地板桌子，里面有一个类型的字段

现在，当我在猪中使用parquet.pig.ParquetLoader,阅读此表时decimal field is getting converted to bytearray and giving junk values。这个问题有什么解决办法吗？

hive apache-pig parquet

2015-06-30T10:05:50.750

0 投票

1 回答

1069 浏览

amazon-s3 - 在简单的 SparkSQL 查询中未修剪分区

我正在尝试从 SparkSQL 表（S3 中的镶木地板）中有效地选择单个分区。但是，我看到 Spark 打开表中所有 parquet 文件的证据，而不仅仅是那些通过过滤器的文件。这使得对于具有大量分区的表来说，即使是小的查询也很昂贵。

这是一个说明性示例。我使用 SparkSQL 和 Hive 元存储在 S3 上创建了一个简单的分区表：

在随后的会话中，我想选择该表的一个子集：

在随后打印的日志中，我看到应该进行修剪：

但后来我看到所有分区都打开了镶木地板文件：

只有三个分区，这不是问题——但有数千个，它会导致明显的延迟。为什么打开所有这些不相关的文件？

amazon-s3 apache-spark apache-spark-sql pyspark parquet

2015-07-05T02:47:35.660

0 投票

4 回答

2088 浏览

apache - Build failure - Apache Parquet-MR source (mvn install failure)

I am getting following error while trying to execute "mvn clean install" for building parquet-mr source obtained from https://github.com/apache/parquet-mr

"mvn --version" is:

Can someone guide me on the same ? Any help on this is highly appreciated. Thank you!

apache maven maven-3 velocity parquet

2015-07-05T10:33:11.160

1 2 3 4 5 6 7 8 9 10

问题标签 [parquet]

Reference