问题标签 [orc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-pig - ORC 格式 - PIG - 依赖库
我理解写入 ORC 格式 + snappy 压缩(猪脚本),
使用 OrcStorage('-c SNAPPY')
我需要你的帮助,我需要包含什么 SET 命令或必要的库才能将结果数据集存储为 ORC 格式?
请帮忙。
苏布拉
apache-spark - 为事务启用 Hive 分桶表
因此,我们正在尝试使用以下语句创建一个带有 ORC 格式的 Hive 表,并为事务启用
该表是在 Hive 中创建的,并且在 Metastore 和 Spark SQL(我们已配置为在 Hive JDBC 之上运行)中都反映在 Beeline 中
我们现在通过 Hive 将数据插入到这个表中。然而,我们看到插入后数据并没有反映在 Spark SQL 中。它仅在 Hive 中正确反映。
如果我们重新启动 Thrift Server,该表仅显示表中的数据。
apache-spark - 无法从火花直线中查看蜂巢兽人表的数据
我创建了一个兽人蜂巢表,如下所示:
创建表forest41(id int,类型字符串)由(id)聚集成2个桶,存储为orc TBLPROPERTIES('transactional'='true');
插入表 forest41 值 (1,'red'),(2,'white'),(3,'black');
现在,当我试图从 spark beeline 查看数据时:它没有显示任何数据,也没有抛出任何异常。
以下是我运行的查询: select * from default.forest40 limit 10
但在spark作业控制台中:显示了与上述查询相关的作业之一——跳过的阶段(一)——Spark JDBC Server Query
apache-pig - 在 Pig 中读取多个 Orc 文件
我正在尝试使用 pig 的 OrcStorage() 读取/加载目录中存在的多个 Orc 文件。我尝试使用 glob 技术,但这对我不起作用,并且抛出错误说文件不存在,但它可用。请让我知道如何在 pig 中实现此功能。
使用的示例文件:
使用的代码:
错误日志:
scala - 以 ORC 格式保存 spark rdd
我正在尝试以 orc 格式保存我的 RDD。
它编译得很好,但它不起作用。我得到以下异常:
我想避免使用 hive 来执行此操作,因为我的数据在 hdfs 中,并且与任何 hive 表都不相关。有什么解决方法吗?它适用于 Parquet 格式。提前致谢。
hadoop - 在不使用 HIVE 的情况下在 HDFS 中以 ORC 格式存储 avro 数据
我比较将 avro 数据存储为 ORC 和 Parquet 格式,我成功使用 "com.twitter" % "parquet-avro" % "1.6.0" 将 Avro 数据存储到 parquet 中,但找不到任何信息或 API 来存储ORC 格式的 avro 数据。
ORC 是否仅与 Hive 紧密耦合?
谢谢 subahsh
hadoop - 将 OrcNewOutputFormat 与 MultipleOutputs 一起使用
我的最终目标是将每个reducer 的orc 输出溢出到它自己的文件夹中,使几个外部表存储为orc。我正在尝试重现此http://hadooppathhome.logdown.com/posts/277986-using-multipleoutputs-with-orc-in-mapreduce,但它似乎不起作用。输出既不会拆分到文件夹,也不会生成正确的文件。
我已经用文本输出测试了 MultipleOutputs,用 context.write() 测试了 OrcNewOutputFormat,它就像一个魅力。有没有人对这个组合有任何运气?
Hive 是 0.14.0。Hadoop 2.6.0
java - 使用 Java 将 Hive 文本转换为 ORC
我想知道是否可以使用 java 解决方案将文本文件转换为要在 Hive 中使用的 ORC 文件。
我们不想使用配置单元查询来转换它。有什么建议么?
sql - hadoop orc table 一直只占用一个映射器
在我当前的项目中,我正在使用具有快速压缩格式的 Orc 文件,我运行的任何查询都只使用一个映射器运行。我尝试配置 mapred.max.split.size 和 mapred.min.split.size,但是没有显示映射器数量的任何变化。reducer 数量足够好,但由于映射器是单个映射器,运行简单查询的时间就像。
按 x 从 z 组中选择 x,max(y) ;完成映射器需要将近 20 分钟。我还应该做些什么来增加映射器的数量。
请不要告诉它使用分区或存储桶,因为我已经在我的表中使用了它们。
hive - 如何在orc hive表中插入数据
是否可以将数据直接添加到 ORC 配置单元表中insert into table name,fields
?
我看到了很多例子;在所有这些示例中,数据都是通过从另一个表中选择来加载的。