问题标签 [orc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2329 浏览

java - 如何附加 ORC 文件

我们有一个需要添加ORC文件的要求。我试图用谷歌搜索但没有结果。也org.apache.hadoop.hive.ql.io.orc.WriterImpl没有ORC附加 API。无论如何要附加ORC文件吗?(更具体地说,使用 JAVA)

0 投票
3 回答
862 浏览

apache-spark - 使用 Spark 1.4 API 读取 ORC 文件时的 NPE

我在 Spark 中读取了许多 ORC 文件并对其进行处理,这些文件基本上是 Hive 分区。大多数时候处理进展顺利,但对于少数文件,我得到以下异常,不知道为什么?这些文件在使用 Hive 查询的 Hive 中运行良好。

0 投票
1 回答
15874 浏览

scala - Spark:以 ORC 格式保存数据帧

在之前的版本中,我们曾经在 RDD 上有一个 'saveAsOrcFile()' 方法。现在没有了!如何以 ORC 文件格式将数据保存在 DataFrame 中?

}

0 投票
4 回答
11035 浏览

java - 在 Java 中读取 ORC 文件

你如何阅读 Java 中的 ORC 文件?我想读入一个小文件以进行一些单元测试输出验证,但我找不到解决方案。

0 投票
2 回答
2571 浏览

hadoop - 使用 Lz4 在 ORC 中进行 Hive 压缩

我正在RC尝试ORC使用LZ4. 我已经安装了 Hadoop-2.7.1 和 Hive-1.2.1。在这种情况下LZ4,我可以RC毫无问题地压缩文件。但是,当我尝试使用 加载ORC文件中的数据时LZ4,它不起作用。我创建了ORC如下表:

但是在加载数据时,它给出了以下错误:

我已经使用SnappyZlib使用相同的命令,它工作正常。但问题仅在于LZ4. 不知是什么原因?

0 投票
2 回答
3649 浏览

hadoop - 如何读取 RC 文件内容

我已将一个文件加载到我的配置单元表中,该文件是 ORC 文件格式。
当我尝试使用读取文件时

或者

这没有给我任何结果......我使用的是 hive 0.14

如果我使用 orcfiledump 会出错

0 投票
0 回答
359 浏览

hive - 通过 Hive 创建分区时如何没有分区名称

我们有一个按年、月和日划分的表(table1)。我创建了一个类似于 table1 的 orc 表,具有相似的分区但类型为 ORC。我正在尝试使用以下语句将日期插入分区,但我将数据转储到具有分区名称的文件夹中。我如何确保文件夹中没有分区名称?

hdfs 中 table1 的路径 - /base_path/2015/10/01/data.csv

hdfs中orc表的路径(当前输出)-/base_path_orc/year=2015/month=10/day=01/000000_0

所需的输出 - /base_path_orc/2015/10/01/000000_0

0 投票
1 回答
838 浏览

apache-spark - 我正在使用 spark 1.4 并尝试使用压缩 snappy 保存为 orcfile,但它保存为 zlib

这是我的代码:

但文件保存为 ZLIB。

0 投票
1 回答
812 浏览

hadoop - 预期 org.apache.hadoop.hive.ql.io.orc.OrcStruct,收到 org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow

当我读取 orcfile 并将数据写入 orcfile 时,出现以下错误:

MapoutputValue.class不是不对?

0 投票
0 回答
287 浏览

hadoop - 使用 MRUnit 的 ORC Mapper 单元测试

我有一个处理 ORC 文件的地图程序。从驱动程序中,我将 orcformat 设置为输入格式。

在 OrcNewInputFormat 中,值为 OrcStruct。在 Map 方法中,Writable 值作为参数(值参数)传递,它被类型转换为地图内的 OrcStruct,如下所示。

我想使用 MRUnit 测试这个映射器。为此,在单元测试的设置方法中,我在 testFilePath 中创建了一个 ORC 文件

然后在测试方法中我阅读它并使用 MRUnit 调用映射器。下面是代码

但是在运行测试用例时我得到以下错误

查看 orcserde 我可以看到 MRUnit 调用的写入不受支持。因此测试用例错误。

我们如何对处理处理 Orc 文件的映射器进行单元测试。我正在做的事情还有其他方式或需要改变的地方吗?

在此先感谢您的帮助 。