问题标签 [parquet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
13749 浏览

scala - 如何从命令行或 spark shell 显示镶木地板文件的方案(包括类型)?

我已经确定如何使用 spark-shell 来显示字段名称,但它很难看并且不包括类型

印刷:

0 投票
7 回答
96634 浏览

hadoop - Avro 与 Parquet

我打算为我的 hadoop 相关项目使用其中一种 hadoop 文件格式。我知道parquet 对于基于列的查询和 avro 对于全扫描或当我们需要所有列数据时是有效的!

在我继续并选择一种文件格式之前,我想了解另一种文件格式的缺点/缺点是什么。任何人都可以简单地向我解释一下吗?

0 投票
1 回答
647 浏览

hive - Spark:Hive 查询

我有一个日志文件,第一列将是我在 Hive 表中的分区。

如何构造查询以选择第一列(在此处标记为?)并确保我在分区中选择的那个与第二个选择(*)匹配?

0 投票
1 回答
1350 浏览

json - 在复杂的镶木地板文件上创建配置单元表

我正在尝试在基于以下 json 内容创建的镶木地板表上放置一个蜂巢表:
{"user_id":"4513","providers":[{"id":"4220","name" :"dbmvl","行为":{"b1":"gxybq","b2":"ntfmx"}},{"id":"4173","name":"dvjke","行为":{ "b1":"sizow","b2":"knuuc"}}]}

{"user_id":"3960","providers":[{"id":"1859","name":"ponsv", "行为":{"b1":"ahfgc","b2":"txpea"}},{"id":"103","name":"uhqqo","行为":{"b1":" lktyo","b2":"ituxy"}}]}

{"user_id":"567","providers":[{"id":"9622","name":"crjju","behaviors":{ "b1":"rhaqc","b2":"npnot"}},{"id":"6965","name":"fnheh","behaviors":{"b1":"eipse","b2 ":"nvxqk"}}]}"nvxqk"}}]}"nvxqk"}}]}

我基本上使用 spark sql 来读取 json 并写出 parquet 文件。

我遇到了将配置单元放在生成的镶木地板文件之上的问题。这是我拥有的配置单元 hql:
create table test (mycol STRUCT<user_id:String, providers:ARRAY<STRUCT<id:String, name:String, behaviors:MAP<String, String>>>>) stored as parquet; Alter table test set location 'hdfs:///tmp/test.parquet'; 上述语句执行良好,但是当我尝试在表上执行 select * 时出现错误:
失败并出现异常 java.io.IOException:java.lang.IllegalStateException: Column mycol at index 0 {providers=providers, user_id=user_id} 中不存在

0 投票
1 回答
925 浏览

apache-spark - 使用 Spark 的 Parquet 案例类

我已经完成了一些示例代码,关于如何将数据存储在镶木地板文件中,并按照编程指南中所示的方式实现了它:

读取镶木地板文件时,我使用

编程指南中的示例始终假定您使用字符串,因此以下内容非常简单:

但是,正如您在我的架构定义中看到的那样,我使用的是浮点数组。当然,我可以自己将字符串解析为浮点数组,但这似乎不是这样做的方法。这样做的最佳方法是什么?

0 投票
6 回答
8350 浏览

hadoop - 没有 Hadoop 的镶木地板?

我想在我的一个项目中使用镶木地板作为柱状存储。但我不想依赖 hadoop/hdfs 库。是否可以在 hdfs 之外使用镶木地板?或者什么是最小依赖?

0 投票
2 回答
10960 浏览

impala - Parquet 二进制数据类型

我有一个关于二进制数据类型的问题。我正在尝试为我的 MR 作业编写 Parquet Schema 来创建 Parquet 文件,而不是让 Hive 或 Impala 创建一个。我看到了一些在Parquet中看不到的对 Binary 类型的引用

二进制是 BYTE_ARRAY 的别名吗?

UTF-8 也是二进制数据类型的默认编码吗?

0 投票
0 回答
787 浏览

nullpointerexception - 为什么在查询带有可选 Null 列的镶木地板文件时,apache Drill 返回 Null 指针异常?

我正在使用 protobuf(或 Avro)写入镶木地板文件。我的原型文件如下所示:

这是我的问题的简化版本。现在,当写入镶木地板文件(非 hadoop)时,我希望有一种情况,其中一列根本没有数据(我正在研究模式演变)。所以我只是在镶木地板文件中为“日期”列写值。文件已成功创建,但是当我尝试通过 apache Drill 查询它时,它会引发空指针异常。如果至少对于一个书面记录,我设置了'url'字段,那么就可以了,所有其他'url'值都可以为空,并且可以查询它。但是我需要在 parquet 文件中整列为空的情况(但其他 parquet 文件具有该列的值)。请帮帮我。我的镶木地板版本是:1.6.0rc7 和 apache Drill 版本是 0.8.0 这里是代码:LogClass 是从 proto 文件编译的类

0 投票
1 回答
972 浏览

maven - 从 maven repo 获取镶木地板

我正在尝试从 maven (1.6.0rc7) 获取最新版本的镶木地板。我想我终于正确设置了 Maven 和项目文件夹。我在项目中添加了依赖等,但是看起来maven在找jar,而且只有一个pom:

我浏览了一些帖子,看起来当有 jar 和没有 pom 时可能存在问题,反之亦然,但我不太了解 maven,无法确定这是否真的是问题或其他问题出错了。任何帮助将不胜感激。(我可以放弃并安装以前的版本,它带有一个不错的独立小罐子,但我真的很想弄清楚!!)

0 投票
1 回答
909 浏览

mapreduce - 在 Driver 类中读取镶木地板文件

我有一个镶木地板输入文件。我想在我的驱动程序类中读取该输入文件并进行一些处理来设置我的作业配置。

请给我一些关于这个的意见。