问题标签 [orc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何附加 ORC 文件
我们有一个需要添加ORC
文件的要求。我试图用谷歌搜索但没有结果。也org.apache.hadoop.hive.ql.io.orc.WriterImpl
没有ORC
附加 API。无论如何要附加ORC文件吗?(更具体地说,使用 JAVA)
apache-spark - 使用 Spark 1.4 API 读取 ORC 文件时的 NPE
我在 Spark 中读取了许多 ORC 文件并对其进行处理,这些文件基本上是 Hive 分区。大多数时候处理进展顺利,但对于少数文件,我得到以下异常,不知道为什么?这些文件在使用 Hive 查询的 Hive 中运行良好。
scala - Spark:以 ORC 格式保存数据帧
在之前的版本中,我们曾经在 RDD 上有一个 'saveAsOrcFile()' 方法。现在没有了!如何以 ORC 文件格式将数据保存在 DataFrame 中?
}
java - 在 Java 中读取 ORC 文件
你如何阅读 Java 中的 ORC 文件?我想读入一个小文件以进行一些单元测试输出验证,但我找不到解决方案。
hadoop - 使用 Lz4 在 ORC 中进行 Hive 压缩
我正在RC
尝试ORC
使用LZ4
. 我已经安装了 Hadoop-2.7.1 和 Hive-1.2.1。在这种情况下LZ4
,我可以RC
毫无问题地压缩文件。但是,当我尝试使用 加载ORC
文件中的数据时LZ4
,它不起作用。我创建了ORC
如下表:
但是在加载数据时,它给出了以下错误:
我已经使用Snappy
和Zlib
使用相同的命令,它工作正常。但问题仅在于LZ4
. 不知是什么原因?
hadoop - 如何读取 RC 文件内容
我已将一个文件加载到我的配置单元表中,该文件是 ORC 文件格式。
当我尝试使用读取文件时
或者
这没有给我任何结果......我使用的是 hive 0.14
如果我使用 orcfiledump 会出错
hive - 通过 Hive 创建分区时如何没有分区名称
我们有一个按年、月和日划分的表(table1)。我创建了一个类似于 table1 的 orc 表,具有相似的分区但类型为 ORC。我正在尝试使用以下语句将日期插入分区,但我将数据转储到具有分区名称的文件夹中。我如何确保文件夹中没有分区名称?
hdfs 中 table1 的路径 - /base_path/2015/10/01/data.csv
hdfs中orc表的路径(当前输出)-/base_path_orc/year=2015/month=10/day=01/000000_0
所需的输出 - /base_path_orc/2015/10/01/000000_0
apache-spark - 我正在使用 spark 1.4 并尝试使用压缩 snappy 保存为 orcfile,但它保存为 zlib
这是我的代码:
但文件保存为 ZLIB。
hadoop - 预期 org.apache.hadoop.hive.ql.io.orc.OrcStruct,收到 org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow
当我读取 orcfile 并将数据写入 orcfile 时,出现以下错误:
是MapoutputValue.class
不是不对?
hadoop - 使用 MRUnit 的 ORC Mapper 单元测试
我有一个处理 ORC 文件的地图程序。从驱动程序中,我将 orcformat 设置为输入格式。
在 OrcNewInputFormat 中,值为 OrcStruct。在 Map 方法中,Writable 值作为参数(值参数)传递,它被类型转换为地图内的 OrcStruct,如下所示。
我想使用 MRUnit 测试这个映射器。为此,在单元测试的设置方法中,我在 testFilePath 中创建了一个 ORC 文件
然后在测试方法中我阅读它并使用 MRUnit 调用映射器。下面是代码
但是在运行测试用例时我得到以下错误
查看 orcserde 我可以看到 MRUnit 调用的写入不受支持。因此测试用例错误。
我们如何对处理处理 Orc 文件的映射器进行单元测试。我正在做的事情还有其他方式或需要改变的地方吗?
在此先感谢您的帮助 。