问题标签 [parquet]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3127 问题

0 投票

1 回答

14875 浏览

hadoop - Hive 中区分大小写的列名

我正在尝试创建一个带有分区的外部 HIVE 表。我的一些列名有大写字母。这会在创建表时导致问题，因为带有大写字母的列名的值返回为 NULL。然后我修改了 ParquetSerDe 以便它通过使用 SERDEPROPERTIES 来处理这个问题，并且这与外部表（未分区）一起使用。现在我正在尝试创建一个带有分区的外部表，并且每当我尝试访问大写列（例如 FieldName）时，我都会收到此错误。从表名中选择字段名；

有什么你能想到的建议吗？我无法更改数据源的架构。

这是我用来创建表的命令 -

然后添加分区：

hadoop hive parquet

2014-07-15T20:03:20.950

0 投票

0 回答

6230 浏览

hive - Parquet backed table 损坏 - HIVE - 尾部的预期幻数 [80, 65, 82, 49] 但发现 [1, 92, 78, 10]

分发：CDH-4.6.0-1.cdh4.6.0.p0.26 Hive 版本：0.10.0 Parquet 版本：1.2.5

我有两个大的日期分区外部 Hive 表，其中包含我最近转换为 Parquet 以利用压缩和列存储的日志文件。到目前为止，我对表演感到非常满意。

我们的开发团队最近在日志中添加了一个字段，因此我负责在两个日志表中添加一列。它对一个人来说非常有效，但另一个人似乎已经损坏了。我恢复了更改，但我仍然无法查询该表。

我确信数据很好（因为它没有改变）但是元存储中有问题。msck 修复表在我删除/创建后重新填充分区，但不处理下面的错误。有两件事可以解决它，但都不会让我开心：

重新插入数据。
将数据从生产集群复制回表中。

我真的希望有一个我不知道的命令可以修复表格，而无需诉诸上述 2 个选项。就像我说的，数据很好。我已经用谷歌搜索了这个错误，我得到了一些结果，但它们都与 Impala 相关，这不是正在使用的。

问题是这样的：

引起：java.lang.RuntimeException：hdfs://hdfs-dev/data/prod/upload-metrics/upload_metrics_hist/dt=2014-07-01/000005_0 不是 Parquet 文件。尾部的预期幻数 [80, 65, 82, 49] 但找到了 [1, 92, 78, 10]

完全错误

hive hdfs parquet

2014-07-18T17:29:55.933

0 投票

2 回答

875 浏览

hdfs - 将文本文件级联到 Parquet

我正在尝试使用 Cascading 将文件转换为 Parquet。但我收到以下错误。

错误

代码

hdfs file-conversion cascading parquet

2014-07-23T15:27:51.597

0 投票

2 回答

412 浏览

scalding - Scalding 是否支持通过带 Parquet 的谓词下推进行记录过滤？

不必读取会导致过滤器失败的记录有明显的速度优势。我看到 Spark 支持它，但我还没有找到任何关于如何使用 Scalding 进行操作的文档。

scalding parquet

2014-08-03T14:10:27.953

0 投票

3 回答

1190 浏览

mapreduce - Parquet：将特定列读入内存

我已将 mysql 表导出到镶木地板文件（基于 avro）。现在我想从该文件中读取特定的列。我怎样才能完全阅读特定的专栏？我正在寻找 java 代码示例。

是否有一个 api 可以传递我需要的列并取回一个二维表数组？

mapreduce avro parquet

2014-08-15T21:27:03.753

0 投票

1 回答

3212 浏览

parquet - 使用 ParquetFileWriter 将数据写入 parquet 文件？

我是镶木地板的新手！我在下面的示例代码中尝试使用parquetWriter将数据写入镶木地板文件。

http://php.sabscape.com/blog/?p=623

上面的例子使用了 parquetWriter，但是我想使用 ParquetFileWriter 在 parquet 文件中高效地写入数据。

请提出一个示例或我们如何使用ParquetFileWriter编写镶木地板文件？

parquet

2014-09-07T16:29:12.927

0 投票

1 回答

805 浏览

hadoop - 为烫伤添加 parquet-avro 支持

如何创建一个Scalding Source可以处理和之间avro的转换parquet。

解决方案应该：

注意：我注意到 Cascading 有一个用于利用 thrift 和 parquet 的模块。我突然想到这将是一个开始寻找的好地方。我还在google-groups/scalding-dev上开了一个帖子

hadoop avro cascading scalding parquet

2014-09-12T13:28:15.830

0 投票

1 回答

967 浏览

hadoop - 插入 Parquet 文件会生成 512 MB 文件。如何生成 1 GB 的文件？

我正在测试 Parquet 文件格式并使用 Impala 外部表将数据插入 Parquet 文件。

以下是可能影响 Parquet 文件大小的参数集：

我正在使用以下插入语句写入 Parquet 文件。

我想生成大约 1 GB 的文件大小和相应的分区数据，以便每个分区的 Parquet 格式的数据少于 1 GB。但是，此插入操作不会生成超过 512 MB 的单个文件。它将 512 MB 的数据写入一个文件，然后创建另一个文件并将其余数据写入另一个文件。如何将所有数据写入单个文件？

hadoop impala parquet

2014-09-17T18:50:51.217

0 投票

1 回答

1346 浏览

hadoop - 如何使用 AvroParquetOutputFormat 设置多个 Avro 模式？

在我的 MapReduce 作业中，我使用 AvroParquetOutputFormat 使用 Avro 模式写入 Parquet 文件。

应用程序逻辑需要由 Reducer 创建多种类型的文件，并且每个文件都有自己的 Avro 模式。

AvroParquetOutputFormat 类有一个静态方法 setSchema() 来设置输出的 Avro 模式。查看代码，AvroParquetOutputFormat 使用 AvroWriteSupport.setSchema() ，这又是一个静态实现。

在不扩展 AvroWriteSupport 和破解逻辑的情况下，是否有更简单的方法可以在单个 MR 作业中从 AvroParquetOutputFormat 实现多个 Avro 模式输出？

高度赞赏任何指针/输入。

感谢和问候

MK

hadoop avro parquet

2014-09-25T19:43:09.810

0 投票

10 回答

124898 浏览

java - 如何将 csv 文件转换为镶木地板

我是 BigData 的新手。我需要将 csv/txt 文件转换为 Parquet 格式。我搜索了很多，但找不到任何直接的方法。有没有办法做到这一点？

java parquet

2014-09-30T15:18:49.737

1 2 3 4 5 6 7 8 9 10