问题标签 [orc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1458 浏览

hadoop - 是否可以从命令行读取 orcserde hadoop 文件?

我正在尝试从命令行读取 hadoop 文件系统中的 ORC 文件,但以下命令不起作用。

hadoop fs -text 不工作

什么是等效命令?

0 投票
0 回答
886 浏览

hadoop - 使用 MapReduce 读取 ORC 文件

我正在尝试通过 MapReduce 读取使用 SNAPPY 压缩的 ORC 文件。我的意图只是利用 IdentityMapper,本质上是合并小文件。但是,我继续NullPointerException这样做。我可以从日志中看到正在推断架构,我还需要为 mapper 的输出文件设置架构吗?

错误:org.apache.orc.OrcFile.createWriter(OrcFile.java:559) 的 org.apache.orc.impl.WriterImpl.(WriterImpl.java:178) 的 java.lang.NullPointerException 在 org.apache.orc.mapreduce .OrcOutputFormat.getRecordWriter(OrcOutputFormat.java:55) 在 org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.(MapTask.java:644) 在 org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)在 org.apache.hadoop.mapred.MapTask.run(MapTask.java:341) 在 org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168) 在 java.security.AccessController.doPrivileged(Native Method ) 在 javax.security.auth.Subject.doAs(Subject.java:415) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1642) 在 org.apache.hadoop.mapred.YarnChild.main( YarnChild.java:163)

0 投票
2 回答
165 浏览

apache-pig - 从多个目录加载关系

如果我们有这样的目录结构:

orc 文件位于 foo1 和 foo2 中。可以想象 foo 下可能有任意数量的子目录。(它们是分区文件)。

如何将子目录中的所有文件加载到关系中?

我试过了:

这不会给我一个错误,但是该关系没有它应该包含的大部分数据。我真的不明白这实际上在做什么。

这让我找不到文件异常。

这也让我找不到文件异常。

我究竟做错了什么?

0 投票
1 回答
654 浏览

hive - 在 Hive ORC 表中获取 ClassCastException

使用cloudera 8.1。在 Hive 中,使用 CSV 文件加载 ORC 格式的表。尝试查询已加载的表时出现此错误:

失败并出现异常 java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: org.apache.hadoop.hive.serde2.io.HiveVarcharWritable 无法转换为 org.apache。 hadoop.io.IntWritable

0 投票
1 回答
550 浏览

hadoop - 分桶表上的 Hive 查询很慢

我有 2 张桌子。
一个是桶装的,另一个不是——除了它们是相同的。
都存储为兽人并分区。
在给定分区上查询分桶表比在同一分区上查询其孪生表要慢得多。
是预期的吗?
如果不是,可能是什么原因?
如果是,那么我是否应该得出结论,我持有分桶表的唯一动机是连接和采样,在这种情况下,持有表的 2 个副本 - 一个分桶,另一个不分桶(听起来很浪费)?

0 投票
2 回答
1762 浏览

apache - HIVe 插入语句耗时过长

我在单个文件 (test.hql) 中有 200 个插入语句,用于将它们插入到 ORC 格式的配置单元表中。每次插入都需要大量时间(40 秒),使得整个过程需要将近 2 个小时。有没有办法加快速度?

我本可以创建一个 tmp(文本格式)表,然后进行简单的插入覆盖,但这是不允许的。我无法创建新的 DDL。-> 一种选择是在 shell 中破坏 test.hql 并在并行进程中执行。有没有其他方法可以让这些插入在 Hive 本身中快速?

0 投票
1 回答
189 浏览

hadoop - 在 ORC 表上的 Hive 选择查询失败

例外:

失败并出现异常 java.io.IOException:java.io.IOException: 以某种方式读取 -1 字节试图跳过 6257 个字节以寻找位置 6708,大小:1290047

有谁知道如何在云 dataproc 上修复它?

0 投票
1 回答
1829 浏览

hadoop - ORC如何分隔字段?

我知道这一定是一个愚蠢的问题,但经过几个小时的谷歌搜索,我无法得到答案。

以纯文本格式(例如 csv)很容易理解分隔符的工作原理。在 ORC 中,由于 is 是二进制存储在 HDFS 中,那么字段的分隔符是什么?有人告诉我,ORC 中没有分隔符,但我非常怀疑这个说法。

即使是作为行组存储,对于每个行组的一列,可以有多个数据字段,如何区分每个字段与下一个字段?每行如何与下一行分开?是否有分隔符来实现这一点?

感谢您的任何评论!

0 投票
0 回答
499 浏览

oracle - Hive VARCHAR 字段可以存储 unicode 字符吗?

我阅读了常见问题解答,根据本节,Hive 显然支持 Unicode。但我不知道 Hive 表中的哪些数据类型字段允许 Unicode 字符;是吗VARCHARSTRING我在网上找不到任何答案,也无法测试。

我很可能会使用 ORC 或 Parquet,两者都支持 Unicode 兼容的字段吗?数据来自NVARCHAROracle 源中的字段

0 投票
1 回答
1002 浏览

apache-spark - write.save 上的 Spark partitionBy 将所有数据带到驱动程序?

所以基本上我有一个 python spark 作业,它读取一些简单的 json 文件,然后尝试将它们写为由一个字段分区的 orc 文件。分区不是很平衡,因为一些键非常大,而另一些非常小。

做这样的事情时我有记忆问题:

向执行程序添加内存似乎没有任何效果,但我解决了它增加驱动程序内存。这是否意味着所有数据都被发送到驱动程序以供其写入?每个执行者不能写自己的分区吗?我正在使用 Spark 2.0.1