问题标签 [orc]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

445 问题

0 投票

1 回答

1458 浏览

hadoop - 是否可以从命令行读取 orcserde hadoop 文件？

我正在尝试从命令行读取 hadoop 文件系统中的 ORC 文件，但以下命令不起作用。

hadoop fs -text 不工作

什么是等效命令？

2016-09-15T19:38:32.923

0 投票

0 回答

886 浏览

hadoop - 使用 MapReduce 读取 ORC 文件

我正在尝试通过 MapReduce 读取使用 SNAPPY 压缩的 ORC 文件。我的意图只是利用 IdentityMapper，本质上是合并小文件。但是，我继续NullPointerException这样做。我可以从日志中看到正在推断架构，我还需要为 mapper 的输出文件设置架构吗？

错误：org.apache.orc.OrcFile.createWriter(OrcFile.java:559) 的 org.apache.orc.impl.WriterImpl.(WriterImpl.java:178) 的 java.lang.NullPointerException 在 org.apache.orc.mapreduce .OrcOutputFormat.getRecordWriter(OrcOutputFormat.java:55) 在 org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.(MapTask.java:644) 在 org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)在 org.apache.hadoop.mapred.MapTask.run(MapTask.java:341) 在 org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168) 在 java.security.AccessController.doPrivileged(Native Method ) 在 javax.security.auth.Subject.doAs(Subject.java:415) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1642) 在 org.apache.hadoop.mapred.YarnChild.main( YarnChild.java:163)

hadoop hive orc

2016-09-18T17:34:06.523

0 投票

2 回答

165 浏览

apache-pig - 从多个目录加载关系

如果我们有这样的目录结构：

orc 文件位于 foo1 和 foo2 中。可以想象 foo 下可能有任意数量的子目录。（它们是分区文件）。

如何将子目录中的所有文件加载到关系中？

我试过了：

这不会给我一个错误，但是该关系没有它应该包含的大部分数据。我真的不明白这实际上在做什么。

这让我找不到文件异常。

这也让我找不到文件异常。

我究竟做错了什么？

apache-pig orc

2016-09-23T21:33:25.393

0 投票

1 回答

654 浏览

hive - 在 Hive ORC 表中获取 ClassCastException

使用cloudera 8.1。在 Hive 中，使用 CSV 文件加载 ORC 格式的表。尝试查询已加载的表时出现此错误：

失败并出现异常 java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: org.apache.hadoop.hive.serde2.io.HiveVarcharWritable 无法转换为 org.apache。 hadoop.io.IntWritable

hive cloudera orc

2016-10-04T02:04:51.843

0 投票

1 回答

550 浏览

hadoop - 分桶表上的 Hive 查询很慢

我有 2 张桌子。
一个是桶装的，另一个不是——除了它们是相同的。
都存储为兽人并分区。
在给定分区上查询分桶表比在同一分区上查询其孪生表要慢得多。
是预期的吗？
如果不是，可能是什么原因？
如果是，那么我是否应该得出结论，我持有分桶表的唯一动机是连接和采样，在这种情况下，持有表的 2 个副本 - 一个分桶，另一个不分桶（听起来很浪费）？

hadoop hive hiveql orc

2016-10-05T14:44:00.083

0 投票

2 回答

1762 浏览

apache - HIVe 插入语句耗时过长

我在单个文件 (test.hql) 中有 200 个插入语句，用于将它们插入到 ORC 格式的配置单元表中。每次插入都需要大量时间（40 秒），使得整个过程需要将近 2 个小时。有没有办法加快速度？

我本可以创建一个 tmp（文本格式）表，然后进行简单的插入覆盖，但这是不允许的。我无法创建新的 DDL。-> 一种选择是在 shell 中破坏 test.hql 并在并行进程中执行。有没有其他方法可以让这些插入在 Hive 本身中快速？

apache hive orc

2016-10-10T08:31:39.337

0 投票

1 回答

189 浏览

hadoop - 在 ORC 表上的 Hive 选择查询失败

例外：

失败并出现异常 java.io.IOException:java.io.IOException: 以某种方式读取 -1 字节试图跳过 6257 个字节以寻找位置 6708，大小：1290047

有谁知道如何在云 dataproc 上修复它？

hadoop hive hadoop-partitioning google-cloud-dataproc orc

2016-10-13T03:10:28.073

0 投票

1 回答

1829 浏览

hadoop - ORC如何分隔字段？

我知道这一定是一个愚蠢的问题，但经过几个小时的谷歌搜索，我无法得到答案。

以纯文本格式（例如 csv）很容易理解分隔符的工作原理。在 ORC 中，由于 is 是二进制存储在 HDFS 中，那么字段的分隔符是什么？有人告诉我，ORC 中没有分隔符，但我非常怀疑这个说法。

即使是作为行组存储，对于每个行组的一列，可以有多个数据字段，如何区分每个字段与下一个字段？每行如何与下一行分开？是否有分隔符来实现这一点？

感谢您的任何评论！

hadoop hive hdfs storage orc

2016-10-13T19:38:43.910

0 投票

0 回答

499 浏览

oracle - Hive VARCHAR 字段可以存储 unicode 字符吗？

我阅读了常见问题解答，根据本节，Hive 显然支持 Unicode。但我不知道 Hive 表中的哪些数据类型字段允许 Unicode 字符；是吗VARCHAR？STRING我在网上找不到任何答案，也无法测试。

我很可能会使用 ORC 或 Parquet，两者都支持 Unicode 兼容的字段吗？数据来自NVARCHAROracle 源中的字段

oracle hadoop unicode parquet orc

2016-11-10T20:30:29.610

0 投票

1 回答

1002 浏览

apache-spark - write.save 上的 Spark partitionBy 将所有数据带到驱动程序？

所以基本上我有一个 python spark 作业，它读取一些简单的 json 文件，然后尝试将它们写为由一个字段分区的 orc 文件。分区不是很平衡，因为一些键非常大，而另一些非常小。

做这样的事情时我有记忆问题：

向执行程序添加内存似乎没有任何效果，但我解决了它增加驱动程序内存。这是否意味着所有数据都被发送到驱动程序以供其写入？每个执行者不能写自己的分区吗？我正在使用 Spark 2.0.1

apache-spark pyspark hadoop2 orc

2016-11-16T22:34:28.397

1 2 3 4 5 6 7 8 9 10

问题标签 [orc]

Reference