问题标签 [hcatalog]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

175 问题

0 投票

2 回答

1701 浏览

hadoop - 以 ORCFile 格式创建输出

我需要以 ORCFile 格式创建输出。根据这个页面（http://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/）它是最好的。

问题？

1) 我应该使用什么编解码器来创建 ORCFile 格式的文件？2) 以这种格式创建的文件是否可以使用 -text 选项读取（例如

hadoop fs -cat -text /tmp/a.orc

3）任何其他指针？使用这种格式是否为时过早？优点缺点？

谢谢。

2014-02-27T02:25:57.453

0 投票

2 回答

337 浏览

hadoop - job information not found in JobContext

I am running a Java program on a remote computer and trying to read the split data using RecordReader object but instead getting:

I already have called the following:

and then creating the RecordReader object as:

On debugging it fails while searching for the value of the key: HCAT_KEY_JOB_INFO in job configuration object, while trying to create a RecordReader object.

How do I set this value? Any pointers will be helpful.

Thanks.

hadoop hive hcatalog

2014-03-03T21:17:30.880

0 投票

1 回答

2202 浏览

hadoop - 使用 HCatalog 对 Hive 表进行 MapReduce

我正在尝试编写计算 Hive 表（Hadoop 2.2.0.2.0.6.0-101）中字段值分布的 map-reduce 作业。例如：

输入 Hive 表“ATable”：

Map-reduce 作业也应在 Hive 中生成以下输出表：

要获取字段名称/值，我需要访问 HCatalog 元数据，因此我可以在 map 方法 (org.apache.hadoop.mapreduce.Mapper) 中使用它们为此我尝试采用来自： http://java 的示例。 dzone.com/articles/mapreduce-hive-tables-using

此示例中的代码可以编译，但会产生很多弃用警告：

弃用警告：

在哪里可以找到在 map-reduce 中使用 HCatalog 和最新的、未弃用的接口的类似示例？

谢谢！

hadoop mapreduce hcatalog

2014-03-04T12:07:09.197

0 投票

1 回答

294 浏览

hbase - 使用 HCatalog 从 Pig 访问 HBase 数据

我正在尝试从 Pig 脚本加载数据。存储在 HBase 中的数据，我可以在 HCatalog 中映射和创建表。但是当我尝试从 Pig 访问 HCatalog 表时，我遇到了异常

有什么办法可以解决这个问题吗？

hbase apache-pig hcatalog

2014-03-04T22:56:41.757

0 投票

1 回答

9115 浏览

hadoop - 使用 MapReduce 访问 Hive 表数据

在 Hadoop 2.2 的单节点安装中，我正在尝试运行 Cloudera 示例“使用 MapReduce 访问表数据”，该示例将数据从一个表复制到另一个表：

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_19_6.html

示例代码编译时带有大量弃用警告（见下文）。在从 Eclipse 运行此示例之前，我在 Hive 默认数据库中创建了输入表“简单”。我在命令行上传递输入“简单”并输出“简单”表。尽管默认数据库中已经存在输入表，但当我运行此代码时，我得到异常：

问题：

1）为什么会发生“table not found”异常？如何解决这个问题？

2) 此示例中已弃用的 HCatRecord、HCatSchema、HCatBaseInputFormat 如何转化为最新、稳定的 API？

当我在单节点 Hadoop 2.2 上运行它时，出现以下异常：

hadoop mapreduce hive hcatalog

2014-03-05T12:59:22.533

0 投票

1 回答

3783 浏览

hive - 无法通过 HCatalog 将 Hive 表加载到 Pig

我目前正在使用本教程在 CentOS 6.5 上配置 Cloudera HDP 开发映像，安装基础，然后根据需要添加不同的组件。目前，我正在使用上面链接的教程的这一部分安装/测试 HCatalog。

我已成功安装该软件包，现在正在使用以下脚本测试 HCatalog 与 Pig 的集成：

在运行命令之前，我之前在 Hive 中创建并填充了一个“组”表。当我使用命令运行脚本时，pig -useHCatalog test.pig我得到一个异常而不是预期的输出。以下是堆栈跟踪的初始部分：

有没有人遇到过这个错误？任何帮助将非常感激。如果您需要，我很乐意提供更多信息。

hive apache-pig cloudera hcatalog

2014-03-10T15:52:03.653

0 投票

1 回答

773 浏览

xml - 可以将 HCatalog 与 XML 一起使用吗？-- 在 Cloudera 虚拟机上做 ETL

我正在做一个大数据类的项目，我已经在本地安装了 Cloudera Quickstart VM，以便在我的数据集上运行一些基本任务并熟悉一些工具。我正在学习一个教程，其中涉及将数据集移动到 HDFS，基于数据集文件创建一个 HCatalog 表，然后在表上运行 Hive 和/或 Pig 命令。问题是我的数据是一个大型 XML 文件，HCatalog 中的标准分隔符选项不适用。

有没有办法将 XML 导入 HCatalog？如果不是，在我的 XML 数据集上使用 Hive 或 Pig 的最佳方式是什么？

编辑：我的文件来自公共 StackOverflow 数据集。我正在使用该posts.xml文件。它非常大（25GB），我无法在我的机器上打开它，但下面是根据自述文件的结构：

该文件的绝对大小会成为 VM 中的问题吗？最后，我们将在 AWS 中重复其中的一些 ETL 任务，但现在我正在努力避免在不知道如何正确使用某些工具的情况下支付大笔费用。

xml hadoop hive cloudera hcatalog

2014-03-16T07:43:33.227

0 投票

6 回答

110982 浏览