问题标签 [orc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1423 浏览

apache-pig - ORC 格式 - PIG - 依赖库

我理解写入 ORC 格式 + snappy 压缩(猪脚本),

使用 OrcStorage('-c SNAPPY')

我需要你的帮助,我需要包含什么 SET 命令或必要的库才能将结果数据集存储为 ORC 格式?

请帮忙。

苏布拉

0 投票
2 回答
1116 浏览

apache-spark - 为事务启用 Hive 分桶表

因此,我们正在尝试使用以下语句创建一个带有 ORC 格式的 Hive 表,并为事务启用

该表是在 Hive 中创建的,并且在 Metastore 和 Spark SQL(我们已配置为在 Hive JDBC 之上运行)中都反映在 Beeline 中

我们现在通过 Hive 将数据插入到这个表中。然而,我们看到插入后数据并没有反映在 Spark SQL 中。它仅在 Hive 中正确反映。

如果我们重新启动 Thrift Server,该表仅显示表中的数据。

0 投票
1 回答
1019 浏览

apache-spark - 无法从火花直线中查看蜂巢兽人表的数据

我创建了一个兽人蜂巢表,如下所示:

  • 创建表forest41(id int,类型字符串)由(id)聚集成2个桶,存储为orc TBLPROPERTIES('transactional'='true');

    插入表 forest41 值 (1,'red'),(2,'white'),(3,'black');

现在,当我试图从 spark beeline 查看数据时:它没有显示任何数据,也没有抛出任何异常。

以下是我运行的查询: select * from default.forest40 limit 10

但在spark作业控制台中:显示了与上述查询相关的作业之一——跳过的阶段(一)——Spark JDBC Server Query

0 投票
0 回答
1107 浏览

apache-pig - 在 Pig 中读取多个 Orc 文件

我正在尝试使用 pig 的 OrcStorage() 读取/加载目录中存在的多个 Orc 文件。我尝试使用 glob 技术,但这对我不起作用,并且抛出错误说文件不存在,但它可用。请让我知道如何在 pig 中实现此功能。

使用的示例文件:

使用的代码:

错误日志:

0 投票
2 回答
5616 浏览

scala - 以 ORC 格式保存 spark rdd

我正在尝试以 orc 格式保存我的 RDD。

它编译得很好,但它不起作用。我得到以下异常:

我想避免使用 hive 来执行此操作,因为我的数据在 hdfs 中,并且与任何 hive 表都不相关。有什么解决方法吗?它适用于 Parquet 格式。提前致谢。

0 投票
1 回答
2220 浏览

hadoop - 在不使用 HIVE 的情况下在 HDFS 中以 ORC 格式存储 avro 数据

我比较将 avro 数据存储为 ORC 和 Parquet 格式,我成功使用 "com.twitter" % "parquet-avro" % "1.6.0" 将 Avro 数据存储到 parquet 中,但找不到任何信息或 API 来存储ORC 格式的 avro 数据。

ORC 是否仅与 Hive 紧密耦合?

谢谢 subahsh

0 投票
0 回答
199 浏览

hadoop - 将 OrcNewOutputFormat 与 MultipleOutputs 一起使用

我的最终目标是将每个reducer 的orc 输出溢出到它自己的文件夹中,使几个外部表存储为orc。我正在尝试重现此http://hadooppathhome.logdown.com/posts/277986-using-multipleoutputs-with-orc-in-mapreduce,但它似乎不起作用。输出既不会拆分到文件夹,也不会生成正确的文件。

我已经用文本输出测试了 MultipleOutputs,用 context.write() 测试了 OrcNewOutputFormat,它就像一个魅力。有没有人对这个组合有任何运气?

Hive 是 0.14.0。Hadoop 2.6.0

0 投票
1 回答
773 浏览

java - 使用 Java 将 Hive 文本转换为 ORC

我想知道是否可以使用 java 解决方案将文本文件转换为要在 Hive 中使用的 ORC 文件。

我们不想使用配置单元查询来转换它。有什么建议么?

0 投票
1 回答
540 浏览

sql - hadoop orc table 一直只占用一个映射器

在我当前的项目中,我正在使用具有快速压缩格式的 Orc 文件,我运行的任何查询都只使用一个映射器运行。我尝试配置 mapred.max.split.size 和 mapred.min.split.size,但是没有显示映射器数量的任何变化。reducer 数量足够好,但由于映射器是单个映射器,运行简单查询的时间就像。

按 x 从 z 组中选择 x,max(y) ;完成映射器需要将近 20 分钟。我还应该做些什么来增加映射器的数量。

请不要告诉它使用分区或存储桶,因为我已经在我的表中使用了它们。

0 投票
0 回答
536 浏览

hive - 如何在orc hive表中插入数据

是否可以将数据直接添加到 ORC 配置单元表中insert into table name,fields

我看到了很多例子;在所有这些示例中,数据都是通过从另一个表中选择来加载的。