问题标签 [orc]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

445 问题

0 投票

1 回答

1423 浏览

apache-pig - ORC 格式 - PIG - 依赖库

我理解写入 ORC 格式 + snappy 压缩（猪脚本），

使用 OrcStorage('-c SNAPPY')

我需要你的帮助，我需要包含什么 SET 命令或必要的库才能将结果数据集存储为 ORC 格式？

请帮忙。

苏布拉

apache-pig orc

2015-11-17T20:20:03.600

0 投票

2 回答

1116 浏览

apache-spark - 为事务启用 Hive 分桶表

因此，我们正在尝试使用以下语句创建一个带有 ORC 格式的 Hive 表，并为事务启用

该表是在 Hive 中创建的，并且在 Metastore 和 Spark SQL（我们已配置为在 Hive JDBC 之上运行）中都反映在 Beeline 中

我们现在通过 Hive 将数据插入到这个表中。然而，我们看到插入后数据并没有反映在 Spark SQL 中。它仅在 Hive 中正确反映。

如果我们重新启动 Thrift Server，该表仅显示表中的数据。

2015-11-23T10:01:22.887

0 投票

1 回答

1019 浏览

apache-spark - 无法从火花直线中查看蜂巢兽人表的数据

我创建了一个兽人蜂巢表，如下所示：

创建表forest41（id int，类型字符串）由（id）聚集成2个桶，存储为orc TBLPROPERTIES（'transactional'='true'）；

插入表 forest41 值 (1,'red'),(2,'white'),(3,'black');

现在，当我试图从 spark beeline 查看数据时：它没有显示任何数据，也没有抛出任何异常。

以下是我运行的查询： select * from default.forest40 limit 10

但在spark作业控制台中：显示了与上述查询相关的作业之一——跳过的阶段（一）——Spark JDBC Server Query

apache-spark orc

2015-11-23T12:15:23.253

0 投票

0 回答

1107 浏览

apache-pig - 在 Pig 中读取多个 Orc 文件

我正在尝试使用 pig 的 OrcStorage() 读取/加载目录中存在的多个 Orc 文件。我尝试使用 glob 技术，但这对我不起作用，并且抛出错误说文件不存在，但它可用。请让我知道如何在 pig 中实现此功能。

使用的示例文件：

使用的代码：

错误日志：

apache-pig glob orc

2015-11-25T13:25:16.047

0 投票

2 回答

5616 浏览

scala - 以 ORC 格式保存 spark rdd

我正在尝试以 orc 格式保存我的 RDD。

它编译得很好，但它不起作用。我得到以下异常：

我想避免使用 hive 来执行此操作，因为我的数据在 hdfs 中，并且与任何 hive 表都不相关。有什么解决方法吗？它适用于 Parquet 格式。提前致谢。

scala apache-spark parquet orc

2015-11-27T11:26:38.570

0 投票

1 回答

2220 浏览

hadoop - 在不使用 HIVE 的情况下在 HDFS 中以 ORC 格式存储 avro 数据

我比较将 avro 数据存储为 ORC 和 Parquet 格式，我成功使用 "com.twitter" % "parquet-avro" % "1.6.0" 将 Avro 数据存储到 parquet 中，但找不到任何信息或 API 来存储ORC 格式的 avro 数据。

ORC 是否仅与 Hive 紧密耦合？

谢谢 subahsh

hadoop apache-spark avro orc

2015-12-14T12:40:52.760

0 投票

0 回答

199 浏览

hadoop - 将 OrcNewOutputFormat 与 MultipleOutputs 一起使用

我的最终目标是将每个reducer 的orc 输出溢出到它自己的文件夹中，使几个外部表存储为orc。我正在尝试重现此http://hadooppathhome.logdown.com/posts/277986-using-multipleoutputs-with-orc-in-mapreduce，但它似乎不起作用。输出既不会拆分到文件夹，也不会生成正确的文件。

我已经用文本输出测试了 MultipleOutputs，用 context.write() 测试了 OrcNewOutputFormat，它就像一个魅力。有没有人对这个组合有任何运气？

Hive 是 0.14.0。Hadoop 2.6.0

hadoop mapreduce orc multipleoutputs

2016-01-22T05:48:24.440

0 投票

1 回答

773 浏览

java - 使用 Java 将 Hive 文本转换为 ORC

我想知道是否可以使用 java 解决方案将文本文件转换为要在 Hive 中使用的 ORC 文件。

我们不想使用配置单元查询来转换它。有什么建议么？

java orc

2016-01-22T15:42:13.020

0 投票

1 回答

540 浏览

sql - hadoop orc table 一直只占用一个映射器

在我当前的项目中，我正在使用具有快速压缩格式的 Orc 文件，我运行的任何查询都只使用一个映射器运行。我尝试配置 mapred.max.split.size 和 mapred.min.split.size，但是没有显示映射器数量的任何变化。reducer 数量足够好，但由于映射器是单个映射器，运行简单查询的时间就像。

按 x 从 z 组中选择 x,max(y) ；完成映射器需要将近 20 分钟。我还应该做些什么来增加映射器的数量。

请不要告诉它使用分区或存储桶，因为我已经在我的表中使用了它们。

sql hadoop hive orc bigdata

2016-01-26T15:28:28.220

0 投票

0 回答

536 浏览

hive - 如何在orc hive表中插入数据

是否可以将数据直接添加到 ORC 配置单元表中insert into table name,fields？

我看到了很多例子；在所有这些示例中，数据都是通过从另一个表中选择来加载的。

hive orc

2016-02-01T11:00:58.620

1 2 3 4 5 6 7 8 9 10

问题标签 [orc]

Reference