问题标签 [parquet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何读写地图从/到 Java 或 Scala 中的镶木地板文件?
正在寻找一个关于如何Map<String, Object>在 Java 或 Scala 中读取和写入 parquet 文件的简明示例?
这是预期的结构,com.fasterxml.jackson.databind.ObjectMapper 在 Java 中用作序列化程序(即使用 parquet 寻找等价物):
apache-spark - Spark 与 Avro、Kryo 和 Parquet
我很难理解 Avro、Kryo 和 Parquet 在 Spark 环境中到底做了什么。它们都与序列化有关,但我已经看到它们一起使用,所以它们不能做同样的事情。
Parquet 将其自身描述为一种列式存储格式,我有点明白这一点,但是当我保存 Parquet 文件时,Arvo 或 Kryo 可以与它有什么关系吗?或者它们仅在火花工作期间相关,即。用于在洗牌期间通过网络发送对象或溢出到磁盘?Arvo 和 Kryo 有何不同?将它们一起使用会发生什么?
hive - 设置 parquet snappy 输出文件大小是 hive?
我正在尝试在 dfs.block.size 边界上拆分由 hive INSERT OVERWRITE TABLE... 创建的 parquet/snappy 文件,因为当分区中的文件大于块大小时,impala 会发出警告。
impala 记录以下警告:
代码:
至于INSERThql 脚本:
问题是文件没收无处不在:
无论dfs.block.size设置(和上述其他设置)增加到256M,512M或1G(对于不同的数据集),问题都是相同的。
有没有办法/设置来确保输出 parquet/snappy 文件的拆分刚好低于 hdfs 块大小?
hadoop - 出现错误,错误:org.kitesdk.data.DatasetIOException:无法解码 Avro 值
我正在尝试将数据从 redshift 加载到hdfs(parquet format), 使用sqoop(--as-parquetfile).
有没有其他人遇到过同样的错误(见下文)?如果是这样,您是如何解决问题的?
感谢您提出的任何建议。
c++ - 位向量在处理镶木地板文件格式时相交
我正在处理镶木地板文件格式。例如:
一组数据:
1 2无3 4 5 6无7 8无 无9 10 11 12 13 14
我有一个位向量来指示空元素:
1 1 0 1 1 1 1 0 1 1 0 0 1 1 1 1 1 1
并且只存储非空元素:
1 2 3 4 5 6 7 8 9 10 11 12 13 14
我想评估一个谓词: big then 5
我将非空元素与 5 进行了比较,得到了一个位向量:
0 0 0 0 0 1 1 1 1 1 1 1 1 1
我想为所有元素获得一个位向量:
0 0 0 0 0 0 1 0 1 1 0 0 1 1 1 1 1 1
粗体中的 0 是 null 元素,应该是 false。
我的代码很丑陋,有没有办法让它变快?太谢谢了!
hadoop - 运行 Sqoop 时出现异常:使用 -query 和 --as-parquetfile 的 java.lang.NullPointerException
我正在尝试将表数据从 Redshift 导入 HDFS(使用 Parquet 格式)并面临如下所示的错误:
使用的命令行查询:
sqoop import --driver "com.amazon.redshift.jdbc41.Driver" --connect "jdbc:postgresql://:5439/events" --username "username" --password "password" --query "SELECT * FROM mobile_og.pages WHERE \$CONDITIONS" --split-by anonymous_id --target-dir /user/huuser/pq_mobile_og_pages_2 --as-parquetfile。
--as-parquetfile从上述命令行查询中删除选项时,它工作正常。
hadoop - 将 Parquet 数据从 HDFS 收集到本地文件系统
给定分布在 HDFS 上的 Parquet 数据集(元数据文件 + 可能.parquet部分),如何正确合并部分并将数据收集到本地文件系统中?dfs -getmerge ...不起作用-它将元数据与实际的镶木地板文件合并..
hive - Hive Parquet 表中的小数字段问题
我在蜂巢中有一张镶木地板桌子,里面有一个类型的字段
现在,当我在猪中使用parquet.pig.ParquetLoader,阅读此表时decimal field is getting converted to bytearray and giving junk values。这个问题有什么解决办法吗?
amazon-s3 - 在简单的 SparkSQL 查询中未修剪分区
我正在尝试从 SparkSQL 表(S3 中的镶木地板)中有效地选择单个分区。但是,我看到 Spark 打开表中所有 parquet 文件的证据,而不仅仅是那些通过过滤器的文件。这使得对于具有大量分区的表来说,即使是小的查询也很昂贵。
这是一个说明性示例。我使用 SparkSQL 和 Hive 元存储在 S3 上创建了一个简单的分区表:
在随后的会话中,我想选择该表的一个子集:
在随后打印的日志中,我看到应该进行修剪:
但后来我看到所有分区都打开了镶木地板文件:
只有三个分区,这不是问题——但有数千个,它会导致明显的延迟。为什么打开所有这些不相关的文件?
apache - Build failure - Apache Parquet-MR source (mvn install failure)
I am getting following error while trying to execute "mvn clean install" for building parquet-mr source obtained from https://github.com/apache/parquet-mr
"mvn --version" is:
Can someone guide me on the same ? Any help on this is highly appreciated. Thank you!