问题标签 [hcatalog]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2904 浏览

apache-pig - Apache Pig 中的 HCatalog 可以只加载特定分区吗?

我需要在 Pig 中加载某个分区(日期)的数据。此数据是在 Hive 中创建的,并按日期进行分区。所以我想通过 HCatalog 将数据加载到 Pig 中。

HCatalog 文档说,要在 Pig 中加载某个分区,首先加载整个数据集,然后对其进行过滤,即:

https://cwiki.apache.org/confluence/display/Hive/HCatalog+LoadStore 但恐怕这首先将整个数据加载到包a中,然后只在b中过滤。我是对还是错?

在 Hive 中这个工作(没有 HCat),你可以修剪数据以获得你想要的分区,即:

与 HCatalog 的 Pig 中这个构造的等价物是什么?

谢谢!

0 投票
3 回答
1074 浏览

hadoop - 我可以在 Hadoop 中将 HCatInputFormat 与 MultipleInputs 一起使用吗?

我正在尝试在两个数据集之间进行连接,一个存储在 Hive 表中,另一个不存储。我看到根据人们的做法,这不是很正常,例如,他们要么将所有内容定义为 Hive 表,要么不定义。

现在有了 MultipleInputs 类,但是 addInputPath 方法需要 Configuration、Path、InputFormat、Mapper

我可以在那里使用输入格式并尝试将表名伪装成路径,但这听起来充其量只是一个疯狂的猜测。

有一个更新版本的 Hive 的补丁(我在 CDH4 上,所以这意味着 hive 0.10 和 hcat 0.5 可悲)。我发现这个补丁不能直接翻译成我当前的版本,而且似乎只适用于多个表而不是它们的混合。

https://issues.apache.org/jira/browse/HIVE-4997

这可能吗?或者你有什么建议吗?

我唯一能想到的是在不使用表格的情况下读取原始数据,但这意味着我宁愿避免使用配置单元特定格式的逻辑。

0 投票
2 回答
1388 浏览

oracle - 通过 Sqoop 将序列文件导出到 Oracle

我一直在尝试查找一些有关如何使用 Sqoop 将序列文件导出到 Oracle 的文档。那可能吗?

目前我有基于文本格式的文件(在 HDFS 中),我正在使用 Sqoop 将这些文件导出到一些 Oracle 的表中,并且工作正常。现在我想将文件的格式从文本更改为序列文件或其他文件(稍后是 Avro)。那么,如果我想使用 Sqoop 将不同的文件格式从 HDFS 导出到 Oracle,我需要做什么?

任何信息将不胜感激。

提前致谢。

0 投票
3 回答
1193 浏览

hadoop - 通过带有 TimeStamp 数据类型的 HCatalog 问题将 Hive 与 Pig 一起使用

在我的开发框中,我有MapR 3.0.2, Hive 0.11, HCatLog 0.4.1& Pig 0.12。我使用标准查询从( )HCatlog读取和写入Hive表,PigPig Latin

我的Hive表包含TIMTESTAMP数据类型(几列),因此在此语句之后立即GRUNT出现错误

有一个类似的查询:类型转换猪 hcatalog

我无法更改Hive表的数据类型。此外,我无法将这些工具中的任何一个更改或升级到较新的版本(客户端策略约束)。如何将它转换为字符串或任何支持的数据类型,以便在&HCatalog之间传递它,我可以继续进一步?PigHive

0 投票
0 回答
250 浏览

apache-pig - 使用 Pig 访问 Avro 支持的 Hcatalog 表

我在 Hcatalog 中创建了一个 Avro 支持的表,可以通过 Hive 或 Pig 访问。

在 Pig 中,我尝试使用 HcatLoader 访问/加载此表。

一旦我加载它,我描述就能看到 avro 模式。

但是,当我 DUMP 出来时,值没有出现,而是出现了空白。

例如

输出是 (,,,2014,05) 其中 2014 和 05 是我的分区。

只是想检查一下我在这里遗漏了什么吗?尝试这些是相当新的,所以任何指针都会帮助我取得进步。

0 投票
1 回答
1985 浏览

hive - Hive 0.13 外部表动态分区自定义模式

根据文档,您应该能够为分区 Hive 外部表 partitions指定自定义模式。但是,我无法让它工作: select * from rawlog_test7 limit 10;不返回任何记录。

这就是我正在做的

我用...创建我的表

我的目录结构是../2014/06/18/13/ ...

如果我使用静态分区

它有效(select * from rawlog_test7 limit 10;返回记录!)

0 投票
2 回答
1779 浏览

java - Hadoop 2.4:java.lang.NoClassDefFoundError:org/apache/hcatalog/mapreduce/InputJobInfo

我已从 Hortonworks 升级到最近的 Hadoop:

在升级之前,我编写了一个 Java MRD 程序,它使用 Hive 表进行输入和输出。在以前版本的 Hadoop 中它可以工作,尽管我在编译时收到了此代码的弃用警告:

现在,在将依赖项更新到 Hadoop 2.4.0.2.1.2.1-471 中的新 jar 并运行相同的代码后,我收到以下错误:

要运行我的代码,我使用以下设置:

导出 LIBJARS=/usr/lib/hive-hcatalog/share/hcatalog/hive-hcatalog-core.jar,/usr/lib/hive/lib/hive-exec.jar,/usr/lib/hive/lib/hive- metastore.jar,/usr/lib/hive/lib/libfb303-0.9.0.jar,/usr/lib/hive/lib/jdo-api-3.0.1.jar,/usr/lib/hive/lib/antlr -runtime-3.4.jar,/usr/lib/hive/lib/datanucleus-api-jdo-3.2.6.jar,/usr/lib/hive/lib/datanucleus-core-3.2.10.jar

export HADOOP_CLASSPATH=/usr/lib/hive-hcatalog/share/hcatalog/hive-hcatalog-core.jar,/usr/lib/hive/lib/hive-exec.jar,/usr/lib/hive/lib/hive- metastore.jar,/usr/lib/hive/lib/libfb303-0.9.0.jar,/usr/lib/hive/lib/jdo-api-3.0.1.jar,/usr/lib/hive/lib/antlr -runtime-3.4.jar,/usr/lib/hive/lib/datanucleus-api-jdo-3.2.6.jar,/usr/lib/hive/lib/datanucleus-core-3.2.10.jar

为什么我得到 java.lang.NoClassDefFoundError: org/apache/hcatalog/mapreduce/InputJobInfo 的任何想法?

0 投票
1 回答
446 浏览

java - Hadoop 2.4.0 + HCatalog + Mapreduce

在 Hadoop 2.4.0 中,执行以下代码示例时出现以下错误。我认为,有不匹配的hadoop版本。你在审查代码吗?以及如何修复此代码?

我正在尝试编写复制 Hcatalog 表的 map-reduce 作业。

谢谢你。

代码示例

}

0 投票
1 回答
196 浏览

hadoop - 运行 ./hcat_server.sh start 时未找到 hadoop

我想运行 Hcatalog,为此我触发了以下查询: mohnish@mohnish:/usr/lib/hive/hcatalog/sbin$ ./hcat_server.sh start 我发现以下错误:未找到 Hadoop。

你能帮忙确定问题出在哪里吗..

0 投票
3 回答
3885 浏览

hadoop - Spark 和 HC 目录?

我对使用 Pig 加载 HCatalog 感到很自在,并且想知道是否可以使用 Spark 代替 Pig。不幸的是,我对 Spark 很陌生……
您能提供有关如何开始的任何材料吗?是否有任何 Spark 库可供使用?有什么例子吗?我已经在http://spark.apache.org/上进行了所有练习,但他们专注于 RDD 并且不再进一步......

我将不胜感激任何帮助...
问候
帕维尔