问题标签 [hcatalog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - HCatalog 在使用前需要安装吗?
谁能告诉我,HCatalog 在使用前需要安装吗?或者它可以作为一个jar文件使用?
我在 VM 上运行 Cloudera,我可以将 HCatalog 用于我的 MR 工作 Pig、Hive 没有问题。而且我认为相同的 MR 代码可以与另一个安装了 hadoop 的平台一起使用,但显然情况并非如此,HCatInputFormat.setInput() 上抛出了异常。当我使用 时Pig -useHCatalog
,我被提示使用错误,这意味着它不知道-useHCatalog
作为参数是什么。
之前没有考虑过这一点,因为一直在 Cloudera 上使用 HCatalog ......
hive - HBase 和 HCatalog 之间有什么相关性?
谁能解释一下,HCatalog 和 HBase 之间的关联是什么?
我找到了这些定义:
Apache HCatalog HCatalog 是一个元数据抽象层,用于在不使用底层文件名或格式的情况下引用数据。它将用户和脚本与数据的物理存储方式和位置隔离开来。
Apache HBase HBase(Hadoop 数据库)是一个分布式的、面向列的数据库。HBase 使用 HDFS 作为底层存储。它支持使用 MapReduce 的批处理式计算和点查询(随机读取)。
当我们在 Hive 中使用 CREATE TABLE 时,它会在 HCatalog 中创建表。我只是不明白。为什么不在 HBase 的真实 DATABASE 中?
HCatalog 似乎是所有数据存储的某种元数据存储库。这是否意味着它还在 HBase 中保留有关数据库和表的信息?
我会很感激解释
问候帕维尔
load - 类型转换的问题 - Pig -> HCatalog
我正在尝试从 HCatalog 加载表,对数据进行一些练习并将其存储到另一个表中。
源表:stage.iboa_event_definitions
目的地表:
我的脚本:
我得到错误:
2013-11-26 13:18:06,140 [main] INFO org.apache.pig.tools.pigstats.ScriptState - 脚本中使用的 Pig 功能:RANK 2013-11-26 13:18:06,143 [main] INFO org. apache.pig.newplan.logical.rules.ColumnPruneVisitor - 为 iboa_event_definitions 修剪的列:$3、$4、$5 2013-11-26 13:18:06,212 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 1115 : 不支持的类型:Pig 的架构中的 10日志文件中的详细信息:/export/home/pig/pig_1385463241554.log
为什么?让我们检查字段类型。
也许错误是由 Long 类型引起的?但这就是为什么我尝试将其转换为 int 的原因。
谁能帮我解决这个问题?
谢谢
帕维尔
c# - 无法对 HDInsight 中非默认容器中的 Hive 表远程运行查询
我正在尝试使用Linq to Hive从 .NET 启动 Hive 查询。
挑战在于查询应该在不在默认 HDInsight 容器中的外部表上运行,因此我已将容器的凭据添加到core-site.xml
并重新启动 Hive 的守护进程。
但是,我收到以下错误:
容器...帐户中...未找到,我们无法使用匿名凭据创建它。
这是我的代码:
连接成功并创建了 Hive 作业(我什至可以看到带有查询的 HQL 文件),但 Hive 作业将上述错误写入 stderr。
我已经尝试解决这个问题几个小时,改变这个和那个,我什WebHCatHttpClient
至尝试过代替 Linq,但无济于事......有什么想法吗?
java - 猪和 HCatalog
运行“pig -useHCatalog”时出现以下错误。
我已经定义了所有的环境变量(包括 PIG_CLASSPATH),并且还在 pig.properties 文件中定义了 pig.additiona.jars
在 pig.properties 文件中,
请让我知道如何解决这个问题。谢谢!
hadoop - 在单个减速器中写入多个 HCatalog 模式?
我有一组在我们开始使用 Hive 之前编写的 Hadoop 流。添加 Hive 时,我们将数据文件配置为外部表。现在我们正在考虑重写流程以使用 HCatalog 输出其结果。我们进行更改的主要动机是利用动态分区。
我遇到的障碍之一是我们的一些 reducer 会生成多个数据集。今天这是用副作用文件完成的,所以我们在一个 reduce 步骤中将每个记录类型写到它自己的文件中,我想知道我有什么选择可以用 HCatalog 来做这件事。
一种选择显然是让每个作业只生成一个记录类型,为每种类型重新处理一次数据。我想避免这种情况。
某些工作的另一个选择是更改我们的模式,以便所有记录都存储在一个模式中。显然,如果数据只是为了穷人的分区而被分解,这个选项很有效,因为 HCatalog 将负责根据字段对数据进行分区。但是,对于其他工作,记录的类型并不一致。
似乎我可以使用 Reader/Writer 接口来传递一组写入器上下文,每个模式一个,但我还没有真正考虑过(而且我只看了一天的 HCatalog,所以我可能会误解 Reader/Writer 接口)。
有没有人有在单个 reduce 步骤中写入多个模式的经验?任何指针将不胜感激。
谢谢。
安德鲁
hive - Hadoop + Hive - hcatalog 不会启动
我刚刚安装了一个在 ubuntu 上运行的单节点 Hadoop 2.2.0 集群。我尝试了几个基本的示例计算,效果很好。
然后我尝试设置 hive 0.12.0,其中包括 hcatalog。
我实际上遵循本教程。
当我尝试启动 hcatalog 时,我总是收到以下错误:
bash $HIVE_HOME/hcatalog/sbin/hcat_server.sh 开始
目录名:缺少操作数 尝试使用 `dirname --help' 获取更多信息。启动 Metastore 服务器初始化,测试初始化是否正确...
/usr/local/hive/hcatalog/sbin/hcat_server.sh:第 91 行:/usr/local/hive-0.12.0/hcatalog/sbin/../var/log/hcat.out:没有这样的文件或目录
Metastore 启动失败,见 /usr/local/hive-0.12.0/hcatalog/sbin/../var/log/hcat.err
但是根本没有 hcat.err 文件,我现在有点被阻止了。
任何帮助将非常感激 !
提前致谢,
纪尧姆
apache-pig - 转储工作,但存储没有 - 猪 - 我在哪里可以找到错误的详细信息?
我正在尝试加载 apache 日志,拆分为字段并将其保存到 hcatalog。
如果我做:
有用。
但
没有。
错误:
我在哪里可以找到问题的任何细节?有一个信息,我可以在下面找到更多详细信息:
hadoop1:50030/jobdetails.jsp?jobid=job_201402120751_0117
但是当工作完成时它不起作用......
问候
帕维尔
java - PIG - 找到接口 org.apache.hadoop.mapreduce.JobContext,但预期类
我试图从蜂巢加载一张桌子。我为此使用 Hcatalog。
我使用
我从 hive 和 hadoop 中导出几乎所有的罐子
我也试过这个命令
是版本不匹配的问题吗?
我正在使用 Hadoop 2.0.0-cdh4.5.0 和 pig-0.12.0-src
请帮忙
hive - 类型转换猪 hcatalog
我使用 HCatalog 0.4 版。我在配置单元“abc”中有一个表,其中有一列数据类型为“timestamp”。当我尝试运行这样的猪脚本时,“raw_data = load 'abc' using org.apache.hcatalog.pig.HCatLoader();” 我收到一条错误消息“java.lang.TypeNotPresentException:类型时间戳不存在”。