问题标签 [orc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 是否可以从命令行读取 orcserde hadoop 文件?
我正在尝试从命令行读取 hadoop 文件系统中的 ORC 文件,但以下命令不起作用。
hadoop fs -text 不工作
什么是等效命令?
hadoop - 使用 MapReduce 读取 ORC 文件
我正在尝试通过 MapReduce 读取使用 SNAPPY 压缩的 ORC 文件。我的意图只是利用 IdentityMapper,本质上是合并小文件。但是,我继续NullPointerException
这样做。我可以从日志中看到正在推断架构,我还需要为 mapper 的输出文件设置架构吗?
错误:org.apache.orc.OrcFile.createWriter(OrcFile.java:559) 的 org.apache.orc.impl.WriterImpl.(WriterImpl.java:178) 的 java.lang.NullPointerException 在 org.apache.orc.mapreduce .OrcOutputFormat.getRecordWriter(OrcOutputFormat.java:55) 在 org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.(MapTask.java:644) 在 org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)在 org.apache.hadoop.mapred.MapTask.run(MapTask.java:341) 在 org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168) 在 java.security.AccessController.doPrivileged(Native Method ) 在 javax.security.auth.Subject.doAs(Subject.java:415) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1642) 在 org.apache.hadoop.mapred.YarnChild.main( YarnChild.java:163)
apache-pig - 从多个目录加载关系
如果我们有这样的目录结构:
orc 文件位于 foo1 和 foo2 中。可以想象 foo 下可能有任意数量的子目录。(它们是分区文件)。
如何将子目录中的所有文件加载到关系中?
我试过了:
这不会给我一个错误,但是该关系没有它应该包含的大部分数据。我真的不明白这实际上在做什么。
这让我找不到文件异常。
这也让我找不到文件异常。
我究竟做错了什么?
hive - 在 Hive ORC 表中获取 ClassCastException
使用cloudera 8.1。在 Hive 中,使用 CSV 文件加载 ORC 格式的表。尝试查询已加载的表时出现此错误:
失败并出现异常 java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: org.apache.hadoop.hive.serde2.io.HiveVarcharWritable 无法转换为 org.apache。 hadoop.io.IntWritable
hadoop - 分桶表上的 Hive 查询很慢
我有 2 张桌子。
一个是桶装的,另一个不是——除了它们是相同的。
都存储为兽人并分区。
在给定分区上查询分桶表比在同一分区上查询其孪生表要慢得多。
是预期的吗?
如果不是,可能是什么原因?
如果是,那么我是否应该得出结论,我持有分桶表的唯一动机是连接和采样,在这种情况下,持有表的 2 个副本 - 一个分桶,另一个不分桶(听起来很浪费)?
apache - HIVe 插入语句耗时过长
我在单个文件 (test.hql) 中有 200 个插入语句,用于将它们插入到 ORC 格式的配置单元表中。每次插入都需要大量时间(40 秒),使得整个过程需要将近 2 个小时。有没有办法加快速度?
我本可以创建一个 tmp(文本格式)表,然后进行简单的插入覆盖,但这是不允许的。我无法创建新的 DDL。-> 一种选择是在 shell 中破坏 test.hql 并在并行进程中执行。有没有其他方法可以让这些插入在 Hive 本身中快速?
hadoop - 在 ORC 表上的 Hive 选择查询失败
例外:
失败并出现异常 java.io.IOException:java.io.IOException: 以某种方式读取 -1 字节试图跳过 6257 个字节以寻找位置 6708,大小:1290047
有谁知道如何在云 dataproc 上修复它?
hadoop - ORC如何分隔字段?
我知道这一定是一个愚蠢的问题,但经过几个小时的谷歌搜索,我无法得到答案。
以纯文本格式(例如 csv)很容易理解分隔符的工作原理。在 ORC 中,由于 is 是二进制存储在 HDFS 中,那么字段的分隔符是什么?有人告诉我,ORC 中没有分隔符,但我非常怀疑这个说法。
即使是作为行组存储,对于每个行组的一列,可以有多个数据字段,如何区分每个字段与下一个字段?每行如何与下一行分开?是否有分隔符来实现这一点?
感谢您的任何评论!
oracle - Hive VARCHAR 字段可以存储 unicode 字符吗?
我阅读了常见问题解答,根据本节,Hive 显然支持 Unicode。但我不知道 Hive 表中的哪些数据类型字段允许 Unicode 字符;是吗VARCHAR
?STRING
我在网上找不到任何答案,也无法测试。
我很可能会使用 ORC 或 Parquet,两者都支持 Unicode 兼容的字段吗?数据来自NVARCHAR
Oracle 源中的字段
apache-spark - write.save 上的 Spark partitionBy 将所有数据带到驱动程序?
所以基本上我有一个 python spark 作业,它读取一些简单的 json 文件,然后尝试将它们写为由一个字段分区的 orc 文件。分区不是很平衡,因为一些键非常大,而另一些非常小。
做这样的事情时我有记忆问题:
向执行程序添加内存似乎没有任何效果,但我解决了它增加驱动程序内存。这是否意味着所有数据都被发送到驱动程序以供其写入?每个执行者不能写自己的分区吗?我正在使用 Spark 2.0.1