问题标签 [hcatalog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-pig - Apache Pig 中的 HCatalog 可以只加载特定分区吗?
我需要在 Pig 中加载某个分区(日期)的数据。此数据是在 Hive 中创建的,并按日期进行分区。所以我想通过 HCatalog 将数据加载到 Pig 中。
HCatalog 文档说,要在 Pig 中加载某个分区,首先加载整个数据集,然后对其进行过滤,即:
https://cwiki.apache.org/confluence/display/Hive/HCatalog+LoadStore 但恐怕这首先将整个数据加载到包a中,然后只在b中过滤。我是对还是错?
在 Hive 中这个工作(没有 HCat),你可以修剪数据以获得你想要的分区,即:
与 HCatalog 的 Pig 中这个构造的等价物是什么?
谢谢!
hadoop - 我可以在 Hadoop 中将 HCatInputFormat 与 MultipleInputs 一起使用吗?
我正在尝试在两个数据集之间进行连接,一个存储在 Hive 表中,另一个不存储。我看到根据人们的做法,这不是很正常,例如,他们要么将所有内容定义为 Hive 表,要么不定义。
现在有了 MultipleInputs 类,但是 addInputPath 方法需要 Configuration、Path、InputFormat、Mapper
我可以在那里使用输入格式并尝试将表名伪装成路径,但这听起来充其量只是一个疯狂的猜测。
有一个更新版本的 Hive 的补丁(我在 CDH4 上,所以这意味着 hive 0.10 和 hcat 0.5 可悲)。我发现这个补丁不能直接翻译成我当前的版本,而且似乎只适用于多个表而不是它们的混合。
https://issues.apache.org/jira/browse/HIVE-4997
这可能吗?或者你有什么建议吗?
我唯一能想到的是在不使用表格的情况下读取原始数据,但这意味着我宁愿避免使用配置单元特定格式的逻辑。
oracle - 通过 Sqoop 将序列文件导出到 Oracle
我一直在尝试查找一些有关如何使用 Sqoop 将序列文件导出到 Oracle 的文档。那可能吗?
目前我有基于文本格式的文件(在 HDFS 中),我正在使用 Sqoop 将这些文件导出到一些 Oracle 的表中,并且工作正常。现在我想将文件的格式从文本更改为序列文件或其他文件(稍后是 Avro)。那么,如果我想使用 Sqoop 将不同的文件格式从 HDFS 导出到 Oracle,我需要做什么?
任何信息将不胜感激。
提前致谢。
hadoop - 通过带有 TimeStamp 数据类型的 HCatalog 问题将 Hive 与 Pig 一起使用
在我的开发框中,我有MapR 3.0.2
, Hive 0.11
, HCatLog 0.4.1
& Pig 0.12
。我使用标准查询从( )HCatlog
读取和写入Hive
表,Pig
Pig Latin
我的Hive
表包含TIMTESTAMP
数据类型(几列),因此在此语句之后立即GRUNT
出现错误
有一个类似的查询:类型转换猪 hcatalog。
我无法更改Hive
表的数据类型。此外,我无法将这些工具中的任何一个更改或升级到较新的版本(客户端策略约束)。如何将它转换为字符串或任何支持的数据类型,以便在&HCatalog
之间传递它,我可以继续进一步?Pig
Hive
apache-pig - 使用 Pig 访问 Avro 支持的 Hcatalog 表
我在 Hcatalog 中创建了一个 Avro 支持的表,可以通过 Hive 或 Pig 访问。
在 Pig 中,我尝试使用 HcatLoader 访问/加载此表。
一旦我加载它,我描述就能看到 avro 模式。
但是,当我 DUMP 出来时,值没有出现,而是出现了空白。
例如
输出是 (,,,2014,05) 其中 2014 和 05 是我的分区。
只是想检查一下我在这里遗漏了什么吗?尝试这些是相当新的,所以任何指针都会帮助我取得进步。
hive - Hive 0.13 外部表动态分区自定义模式
根据文档,您应该能够为分区
Hive 外部表 partitions指定自定义模式。但是,我无法让它工作:
select * from rawlog_test7 limit 10;
不返回任何记录。
这就是我正在做的
我用...创建我的表
我的目录结构是../2014/06/18/13/ ...
如果我使用静态分区
它有效(select * from rawlog_test7 limit 10;
返回记录!)
java - Hadoop 2.4:java.lang.NoClassDefFoundError:org/apache/hcatalog/mapreduce/InputJobInfo
我已从 Hortonworks 升级到最近的 Hadoop:
在升级之前,我编写了一个 Java MRD 程序,它使用 Hive 表进行输入和输出。在以前版本的 Hadoop 中它可以工作,尽管我在编译时收到了此代码的弃用警告:
现在,在将依赖项更新到 Hadoop 2.4.0.2.1.2.1-471 中的新 jar 并运行相同的代码后,我收到以下错误:
要运行我的代码,我使用以下设置:
导出 LIBJARS=/usr/lib/hive-hcatalog/share/hcatalog/hive-hcatalog-core.jar,/usr/lib/hive/lib/hive-exec.jar,/usr/lib/hive/lib/hive- metastore.jar,/usr/lib/hive/lib/libfb303-0.9.0.jar,/usr/lib/hive/lib/jdo-api-3.0.1.jar,/usr/lib/hive/lib/antlr -runtime-3.4.jar,/usr/lib/hive/lib/datanucleus-api-jdo-3.2.6.jar,/usr/lib/hive/lib/datanucleus-core-3.2.10.jar
export HADOOP_CLASSPATH=/usr/lib/hive-hcatalog/share/hcatalog/hive-hcatalog-core.jar,/usr/lib/hive/lib/hive-exec.jar,/usr/lib/hive/lib/hive- metastore.jar,/usr/lib/hive/lib/libfb303-0.9.0.jar,/usr/lib/hive/lib/jdo-api-3.0.1.jar,/usr/lib/hive/lib/antlr -runtime-3.4.jar,/usr/lib/hive/lib/datanucleus-api-jdo-3.2.6.jar,/usr/lib/hive/lib/datanucleus-core-3.2.10.jar
为什么我得到 java.lang.NoClassDefFoundError: org/apache/hcatalog/mapreduce/InputJobInfo 的任何想法?
java - Hadoop 2.4.0 + HCatalog + Mapreduce
在 Hadoop 2.4.0 中,执行以下代码示例时出现以下错误。我认为,有不匹配的hadoop版本。你在审查代码吗?以及如何修复此代码?
我正在尝试编写复制 Hcatalog 表的 map-reduce 作业。
谢谢你。
代码示例
}
hadoop - 运行 ./hcat_server.sh start 时未找到 hadoop
我想运行 Hcatalog,为此我触发了以下查询: mohnish@mohnish:/usr/lib/hive/hcatalog/sbin$ ./hcat_server.sh start 我发现以下错误:未找到 Hadoop。
你能帮忙确定问题出在哪里吗..
hadoop - Spark 和 HC 目录?
我对使用 Pig 加载 HCatalog 感到很自在,并且想知道是否可以使用 Spark 代替 Pig。不幸的是,我对 Spark 很陌生……
您能提供有关如何开始的任何材料吗?是否有任何 Spark 库可供使用?有什么例子吗?我已经在http://spark.apache.org/上进行了所有练习,但他们专注于 RDD 并且不再进一步......
我将不胜感激任何帮助...
问候
帕维尔