问题标签 [orc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sorting - Hive - 在索引或排序列中搜索读取整个存储桶
hive 中的查询不使用 Sort并读取整个 bucket。这是正常现象还是误会。
桌子 :
规格:
- 我的表按“col_a”列进行存储和排序。
- 表具有 ORC 格式
结果:
- 当我查询“col_a”时,会读取整个存储桶。
- 当我索引“col_b”并查询“col_b”时,读取的不仅仅是整个存储桶。
表配置:
- 输入格式:org.apache.hadoop.hive.ql.io.orc.OrcInputFormat
- 输出格式:org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat
- 序列化库:org.apache.hadoop.hive.ql.io.orc.OrcSerde
- bucketCols:[col_a]
- 排序列:col_a
- 订购:1
插入以填充表格并选择以获取值:
/li>我的想法
我认为排序可以让我们不读取整个存储桶,但允许我们访问特定行或一系列行。我还认为索引可以给我们一行或一个桶中的范围。我错了吗 ?顺便感谢您的宝贵时间!
java - 将 CSV 转换为 ORC 时的异常
我正在尝试编写一个 mapreduce 程序,它将输入作为 CSV 并以 ORC 格式写入,但面临 NullPointerException 异常。
下面是我得到的异常堆栈跟踪
以下是 mapreduce 作业的代码
/** 驱动程序代码**/
/** 映射器代码 **/
hadoop - 蜂巢。检查现有 ORC 存储的条带大小
我有两个脚本可以解析原始日志中的数据并将其写入 HIVE 中的 ORC 表中。一个脚本创建更多列,另一个创建更少。date
两个表都按字段分区。
结果,我有不同大小的文件的 ORC 表。列数较多的表由许多小文件组成(每个分区内每个文件约 4MB),列数较少的表由几个大文件组成(每个分区内每个文件约 250 MB)。
我想这是因为 ORC 中的 stripe.size 设置而发生的。但我不知道如何检查现有表的条带大小。“show create”和“describe”等命令不会显示任何自定义设置,这意味着表的条带大小应等于 256 MB。
我正在寻找任何建议来检查现有 ORC 表的 stripe.size。或解释 ORC 表中的文件大小如何取决于该表中的数据。
当我使用 Map Reduce 从该表中读取数据时,PsIt 很重要,并且对于具有大文件的表,有少量的 reducer。
hadoop - 如何将外部创建的 ORC 文件加载到存储为 ORC 的 HIVE 表中?
我创建了一个托管配置单元表,该表存储为 ORC,并且在加载 .txt 文件时工作正常,但是无法将 ORC 文件加载到该表中。与分隔符有什么关系吗?还是我错过了什么?
hadoop - 在 ORC 文件的行中使用 Comma(,) 作为分隔符
我正在用 Java 创建一个 ORC 文件。对于每一行,我希望字段用逗号分隔。这是我的java代码:
这是创建它的正确方法吗?
我正在尝试在 Hive 表中加载数据。这就是我创建表的方式:
但我无法加载数据。当我从表中读取数据时,它会抛出类种姓异常org.apache.hadoop.hive.ql.io.orc.OrcStruct cannot be cast to org.apache.hadoop.io.Text
hadoop - Sqoop 导入为 ORC 错误 java.io.IOException: HCat exited with status 1
我正在尝试使用 sqoop hcatlog(见下文)以 ORC 格式从 Netezza DB 导入表,如此处所建议
Sqoop 命令:
但是,它失败了,但出现以下异常。花了几个小时后,我不知道它为什么会失败。非常感谢任何帮助/领导。
更新: 我可以看到虽然源表有 20 万条记录,但创建了空表。有什么建议可以解决这个问题吗?
amazon-s3 - 使用 Snappy 压缩以 ORC 格式编写 Spark 数据帧
我成功地读取了存储在 S3 中的文本文件,并使用 Spark 数据帧以 ORC 格式将其写回 S3。-inputDf.write().orc(outputPath);
我无法做的是使用快速压缩转换为 ORC 格式。我已经尝试在将编解码器设置为 snappy 时给出选项,但 Spark 仍然像正常的 ORC 一样编写。如何使用 Spark Dataframes 通过 Snappy 压缩到 S3 实现 ORC 格式的写入?
orc - 使用 map reduce 将文本文件转换为 orc 格式
我正在编写一个 map reduce 代码来将文本文件转换为 ORC 格式。我使用了 hive-exec-0.13.0 jar 中存在的 ORCNewOutputFormat。我在一个 15 节点集群(hdp 2.3)中工作。问题是我我无法加载要在我的 map reduce 代码中访问的外部 jar(hive-exec-0.13.0.jar)。我也尝试过其他方法,例如 libjars 和分布式缓存,但代码无法访问 jar。还有其他方法吗?
.
.
.
上述代码的错误
hadoop - 具有动态分区的 Hive 插入查询
我有一个兽人格式化的分区和集群配置单元表,我必须从临时表中插入数据。
创建表语句:orc表:
向临时表添加 5 条记录:hive> select * from DYN_TEMP_TABLE;
OK
耗时:0.166 秒,抓取:5 行
以下动态插入查询出错:
错误消息:此任务的诊断消息:错误:java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:处理行时出现 Hive 运行时错误(标签 = 0)
请帮我指出这个错误的原因。