0 投票

2 回答

960 浏览

hive - 使用 hdfs 将 orc 文件复制到该表的文件夹后如何更新配置单元表的数据

在使用 hdfs 复制将 orc 文件插入表的文件夹后，如何在使用 hive 查询时更新该 hive 表的数据以查看这些数据。

此致。

2017-01-10T08:40:56.403

0 投票

2 回答

7348 浏览

hadoop - Hive 'alter table concatenate' 是如何工作的？
我有`n(large)`许多小型 orc 文件，我想将它们合并到`k(small)`许多大型 orc 文件中。

这是使用`alter table table_name concatenate`Hive 中的命令完成的。

我想了解 Hive 如何实现这一点。如果需要，我希望使用 Spark 来实现这一

我有n(large)许多小型 orc 文件，我想将它们合并到k(small)许多大型 orc 文件中。

这是使用alter table table_name concatenateHive 中的命令完成的。

我想了解 Hive 如何实现这一点。如果需要，我希望使用 Spark 来实现这一点，并进行任何更改。

任何指针都会很棒。

什么时候增加一个指针会给出一个与内存地址相反的随机数？

当我增加一个指针然后取消引用它时，怎么会得到一个随机数？

这是我的代码：

我的输出是：

健康地址：0x7fff5e930a9c

健康1地址：0x7fff5e930a9c

参考地址：0x7fff5e930a9c。

递增然后取消引用后的 Health1 值：197262882

我期望得到一个 0，因为下一个内存地址的下一个值将为空，但在这种情况下并非如此。

hadoop hive hiveql orc

2017-01-24T05:53:54.050

0 投票

1 回答

570 浏览

hadoop - Hive Snappy 未压缩长度必须小于

使用表本身的连接查询下表会导致以下异常：

有问题的查询如下：

该表存储为 ORC 并使用 SNAPPY 进行压缩：

我搜索了很多，但找不到任何提示。你知道问题可能出在哪里吗？

非常感谢！

hadoop hive snappy orc

2017-01-24T14:33:58.753

0 投票

0 回答

626 浏览

java - 火花生成的 ORC 文件中跨条带的 ORC 条带大小不一致

我们使用的是 Spark 1.6 (Cloudera 5.8.2)。我们使用以下命令生成 ORC 输出。

在其中一个输出文件上，我们运行了 hive --orcfiledump 。它显示该输出文件中有 196 个条带。每个条带的数据大小在 19KB-19MB 之间变化。

根据我们的理解，条带大小由某些属性（orc.stripe.size、hive.exec.orc.default.stripe.size）驱动，该属性在应用程序中是一个常量。所以，

为什么我们会看到数据大小的这种变化？
Spark ORC 中的默认条带大小是多少？

java hadoop apache-spark hive orc

2017-01-25T12:46:23.363

0 投票

1 回答

1686 浏览

hadoop - HIVE - ORC 读取 NULL 十进制值的问题 - java.io.EOFException：读取 BigInteger 过去 EOF

在定义为 DECIMAL(31,8) 的列中加载带有 NULL 的 ORC 外部表时，我遇到了有关 HIVE 的问题。看起来 hive 在加载后无法读取 ORC 文件，并且无法再查看该字段内具有 NULL 的记录。可以正常读取同一 ORC 文件中的其他记录。

这只是最近才发生的，我们没有对我们的 HIVE 版本进行任何更改。令人惊讶的是，以前加载到同一个表中的 ORC 文件在 DECIMAL 字段中有 NULL 是可以查询的，没有问题。

我们正在使用 HIVE 1.2.1。下面是 HIVE 吐出的完整堆栈跟踪，我已将实际的 hdfs 位置替换为

hadoop hive hdfs orc

2017-02-01T02:34:02.410

0 投票

2 回答

3465 浏览

scala - Spark将多个目录读入多个数据帧

我在 S3 上有一个目录结构，如下所示：

这意味着对于目录，我根据作业的时间戳在给定路径中foo有多个输出表、、、、base等A。B

在这种情况下，我希望left join他们都基于时间戳和主目录foo。这意味着将每个输出表base、A、B等读入left join可以应用 a 的新单独输入表。一切以base表格为起点

像这样的东西（不工作的代码！）

有人可以指出我如何获得该数据帧序列的正确方向吗？甚至可能值得将读取视为惰性或顺序读取，因此仅在应用连接时读取A或B表以减少内存需求。

注意：目录结构不是最终的，这意味着如果适合解决方案，它可以更改。

scala apache-spark amazon-s3 apache-spark-sql orc

2017-02-06T08:14:04.883

0 投票

3 回答

9619 浏览

hive - Hive，不支持将表文件格式从 orc 更改为 parquet？

我有一个像这样的蜂巢表：

现在，我想将文件格式从 ORC 更改为 parquet 并将位置更改为包含 parquet 文件的其他 hdfs 目录。所以我首先尝试更改格式：

但遗憾的是它抛出了一个异常：

失败：执行错误，返回代码 1 从

我猜这个异常意味着当我更改 fileformat 时，hive 不仅会更改表元数据，而且还会尝试将所有数据格式从 orc 更改为 parquet。但是从官方文档中，它说：

但我想要实现的是将其位置设置为镶木地板目录。

那么，我能做些什么来实现这一目标呢？

hive alter-table parquet orc

2017-02-08T01:41:16.583

0 投票

0 回答

1197 浏览

hadoop - 将分区的 ORC 数据文件复制到另一个外部分区的 ORC 表

问题：将带有 ORC 文件的分区文件夹复制到另一个外部分区 ORC 表后，行数不正确

我在 dev 模式中有这个员工表。该表是一个外部分区的 ORC 表。

CREATE EXTERNAL TABLE dev.employee(empid string, empname string, update_gmt_ts timestamp) PARTITIONED BY (partition_upd_gmt_ts string) 存储为 orc location '/dev/employee';

我在这些分区文件夹中有兽人数据文件。

hdfs dfs -ls /dev/employee

drwxr-xr-x - user1 group1 0 2017-02-08 10:25 /dev/employee/partition_upd_gmt_ts=201609 drwxr-xr-x - user1 group1 0 2017-02-08 10:24 /dev/employee/partition_upd_gmt_ts=201610

当我执行这个查询

从 dev.employee 中选择 count(*)，其中 1=1；

1000 -- 正确的行数

我在 prod 模式中有另一个员工表的表副本。这也是一个外部分区的 ORC 表。我也想将相同的数据推送到该表中。

创建外部表 prod.employee（empid 字符串，empname 字符串，update_gmt_ts 时间戳）分区（partition_upd_gmt_ts 字符串）存储为 orc 位置'/prod/employee'；

所以我做了一个hdfs副本

hdfs dfs -cp /dev/employee/* /prod/employee/

数据被复制了。

hdfs dfs -ls /prod/employee

drwxr-xr-x - user1 group1 0 2017-02-08 10:25 /prod/employee/partition_upd_gmt_ts=201609 drwxr-xr-x - user1 group1 0 2017-02-08 10:24 /prod/employee/partition_upd_gmt_ts=201610

但是当我执行 count 查询时，我得到了零行。

你能帮我解释一下为什么我没有得到与行数相同的 1000。

从 prod.employee 中选择 count(*)，其中 1=1；

0 -- 错误的行数

hadoop hive hdfs hortonworks-data-platform orc

2017-02-09T06:35:10.960

0 投票

2 回答

470 浏览

hadoop - Apache Solr 支持 ORC 文件格式

我在 Hive 中有一堆表，存储为 ORC。我想在 SolrCloud 集合中索引他们的数据。

Solr 中是否支持对存储为 ORC 格式的数据进行索引？我已经用谷歌搜索了，但没有任何结果。

hadoop solr hive orc

2017-02-20T14:57:05.310

0 投票

1 回答

748 浏览

处理：我一直在 hive 中使用文本格式/JSON serde 来进行处理。这是我执行 ETL（转换）操作的暂存表的好格式吗？我应该使用更好的格式吗？我知道 Parquet / ORC / AVRO 是专门的格式，但它是否适合 ETL（转换）操作。此外，如果我对 Zlib 使用诸如 Snappy 之类的压缩技术，那将是一种推荐的方法（我不想因为压缩导致额外的 CPU 利用率而降低性能，如果压缩会有更好的性能，请纠正我）

报告：根据我的查询需求
聚合：使用列式存储似乎是一个合乎逻辑的解决方案。带有 Snappy 压缩的 Parquet 是否非常适合（假设我的 hadoop 发行版是 Cloudera）。
完整的行提取 如果我的查询模式需要一行中的所有列，那么选择列式存储是一个明智的决定吗？还是我应该选择 AVRO 文件格式

存档：对于存档数据，我计划使用 AVRO，因为它可以通过良好的压缩处理模式演变。

hadoop hive avro parquet orc

2017-02-23T10:29:05.663

问题标签 [orc]

hive - 使用 hdfs 将 orc 文件复制到该表的文件夹后如何更新配置单元表的数据

什么时候增加一个指针会给出一个与内存地址相反的随机数？

hadoop - Hive Snappy 未压缩长度必须小于

java - 火花生成的 ORC 文件中跨条带的 ORC 条带大小不一致

hadoop - HIVE - ORC 读取 NULL 十进制值的问题 - java.io.EOFException：读取 BigInteger 过去 EOF

scala - Spark将多个目录读入多个数据帧

hive - Hive，不支持将表文件格式从 orc 更改为 parquet？

hadoop - 将分区的 ORC 数据文件复制到另一个外部分区的 ORC 表

hadoop - Apache Solr 支持 ORC 文件格式

hadoop - 在 hadoop 中选择文件格式

问题标签 [orc]

hadoop - Hive 'alter table concatenate' 是如何工作的？我有n(large)许多小型 orc 文件，我想将它们合并到k(small)许多大型 orc 文件中。 这是使用alter table table_name concatenateHive 中的命令完成的。

什么时候增加一个指针会给出一个与内存地址相反的随机数？

Reference