问题标签 [hcatalog]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
161 浏览

hadoop - 为 HCatalog 配置 HP Vertica 时找不到 hcatUtil

我正在尝试为 HCatalog 配置 HP Vertica:为 HCatalog 配置 HP Vertica

但我在 Vertica 集群上找不到 hcatUtil。我在哪里可以得到这个实用程序?

0 投票
1 回答
5855 浏览

json - 使用 HCatalog JSON SerDe 时出现“无法从空字符串创建路径”错误

我正在尝试使用使用 HCatalog JSON Serde(来自 hcatalog-core-0.5.0-cdh4.7.0.jar)的配置单元表。我在 CDH4(Hadoop 2.0.0-cdh4.7.0 和 Hive 0.10.0-cdh4.7.0)上运行。

表定义:

分区创建如下:

第一遍很顺利,我可以在选择所有列时读取数据:

但是,当我尝试在查询失败的任何地方读取或引用特定字段时:

当我在 where 条件下使用字段时也会发生同样的情况。

我可以在 where 子句中使用分区字段,所以select * from some_table where year=2015工作正常,而select year from some_table limit 10失败并出现上述错误。

HDFS 中的文件如下所示:

我希望这只是我的表定义的问题。欢迎任何帮助。

0 投票
1 回答
89 浏览

hive - 如何使用 Microsoft.Hadoop.WebHCat.Protocol.WebHCatHttpClient.CreateHiveJob 的“defines”参数?

我想defines允许将参数传递给 Hive 查询,但我还没有找到任何文档或使用示例。如何在查询中使用这些参数?

0 投票
1 回答
174 浏览

hadoop - HCatalog:线程“主”java.lang.IncompatibleClassChangeError 中的异常

我正在尝试使用 HCatalog 读取和写入数据,我读到我得到的以下错误是由于版本不匹配,尝试更改 hive 和 hadoop 的版本,但还没有运气。任何帮助高度赞赏。

信息:

以下是类路径变量:
HADOOP_HOME = /usr/local/Cellar/hadoop-2.6.0
HIVE_HOME = /usr/local/Cellar/apache-hive-1.1.0

在 POM 中,这些是依赖项:

0 投票
0 回答
585 浏览

hive - 错误 2998:未处理的内部错误。找到接口 org.apache.hadoop.mapreduce.JobContext,但预期类

我是hadoop的新手。我试图使用 Hcatalog 将 PIG 与 hive 集成,但在转储期间出现以下错误。请让我知道是否有人可以帮助我:

错误 org.apache.pig.tools.grunt.Grunt - 错误 2998:未处理的内部错误。

找到接口 org.apache.hadoop.mapreduce.JobContext,但预期类

加载并描述工作正常,但转储给出上述错误

详细信息:hadoop-2.6.0 pig-0.14.0 hive-0.12.0

使用编译的存钱罐

使用运行配置单元服务器"hive --service hiveserver"

请让我知道是否需要配置其他任何内容

0 投票
1 回答
559 浏览

json - 我应该以哪种格式以及如何将我的 JSON 行(如数据)导入 hadoop?

我阅读了很多有关 hadoop 数据格式的信息,目前似乎明白,根据您使用的包,最高级的格式是 ORC(Hortonworks 很好地支持)或 Parquet(Cloudera 很好地支持)。

现在大多数初学者的示例/教程都包含简单的 csv 数据。每行一个条目。他们通常将 CSV 导入到类似 SQL 的结构 (Hive) 中,而不将其保存为 ORC。

JSON 似乎也被 Hadoop 支持,但没有很好地集成。同样根据概述文章JSON 是一种不好的格式,因为它不能按行拆分成块。原生似乎不支持JSON 行。

我的数据是电影元数据,如下所示:

如果我有 JSON 行结构,我应该如何导入我的数据?这在很大程度上取决于我要使用的查询引擎吗?到目前为止,我只了解了 Hive 和 Pig。似乎两者都可以与 HCatalog 模式一起使用或不使用。但我只在没有列表的简单列数据上使用两者(在 SQL 中需要一些外键表)。

也可以在导入之前将数据拆分为多个不同的文件 - 模拟 SQL 中的外键关系。或者,如果可能,我们是否总是将紧密耦合的数据保存在一个文件中?

我的心理问题似乎是,我不了解整个转换过程:我应该将数据存储到文件的格式,然后可以使用表格抽象导入,另存为另一个文件 (OCR),这将然后使用来自不同域的语言(如 Hive 或 Pig)进行查询,这些语言可能会被转换为 MapReduce 或其他一些中间层(Spark)。

免责声明:我使用 Hadoop 作为整个数据挖掘环境的名称,包括 Hive 和 Pig 等所有查询 API,而不仅仅是文件分发系统。

0 投票
1 回答
197 浏览

hadoop - 在 hcatalog regex 或 serde 中解析日志文件

我对 Hadoop 很陌生。

我正在尝试将我的日志文件加载到 HCatalog 中。以下是我的日志文件的格式。

我需要编写一个 SerDe 来解析这个还是可以通过正则表达式来实现?

0 投票
0 回答
434 浏览

hadoop - Hive HCatalog - 检索表元数据

我一直在使用 Hive Hcatalog API 来检索表/列元数据。

代码示例:

使用hCatTable实例能够检索列hCatTable.getCols()、分区列hCatTable.getPartCols()等。它返回列表HCatFieldSchema

问题是无法从 HCatFieldSchema实例中检索列长度、比例、精度。

有没有办法使用 Hive Hcatalog API 获取上述列元数据?

使用的 Hive 版本:1.1.0

提前致谢

0 投票
1 回答
400 浏览

hadoop - PIG UDF 中的表模式

在将数据加载到 Hive 表之前,我必须在平面文件中格式化数据。

该文件是管道分隔的,我需要在平面文件的不同列上应用不同的清理和格式化功能。我对 Clean_Text、Format_Date、Format_TimeStamp、Format_Integer 等有多种功能。

我的想法是将模式作为构造函数传递给我的 UDF,并在 pig 中的平面文件上调用不同的函数。

但是我怎样才能通过模式?DUMP A 实际上转储了整个表,但我只需要元数据。我当前的 UDF 伪代码看起来像

公共类 DataColumnFormatter 扩展 EvalFunc {

}

如何在 PIG UDF 中获取架构,或者有没有其他方法可以实现这一点。

提前致谢。

0 投票
0 回答
51 浏览

apache-pig - 使用 Pig 将数据添加到 hcatalog 表

我有一个带有编码数据的 JSON 文件。我的目标是解码数据并将其保存到具有模式(食物、人、数量)的 HCat 表中。

我的文件.json

我的代码

输出

如何使用{food: chararray,person: chararray,amount: int}的模式来拆分和保存它