问题标签 [hcatalog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - Pig 未将数据加载到 HCatalog 表中 - HortonWorks Sandbox
我在 HortonWorks 虚拟机中运行 Pig 脚本,目的是提取我的 XML 数据集的某些部分,并将这些部分加载到 HCatalog 表的列中。在我的本地机器上,我在 XML 文件上运行我的 Pig 脚本,并获得一个包含所有提取部分的输出文件。但是,由于某种原因,当我在 HortonWorks VM 中运行相同的脚本时,脚本似乎运行成功,但 HCatalog 表仍然为空。
这是我的本地脚本:
我在 HortonWorks 中使用的那个:
示例 XML 行(来自 StackOverflow 公共数据集):
我手动创建了 HCatalog 表,所有正确的字段都存在并且类型正确。
奇怪的是,如果我dump data
在 Pig 中做,我没有得到任何输出。如果我illustrate data
在日志中看到我的数据片段,然后是大的空白区域,然后是更多数据,等等。
我在这里想念什么?我真的很想拿这个凌乱的 XML 文件并在 HCatalog 中获得一个整洁的表格。同样,在我的机器上运行本地脚本时,我得到了我正在寻找的结果,但是当我运行设计用于将输出存储到posts_table_1
HCatalog 表中的第二个版本时,我收到一条成功消息但一个空表。
或者,如果我可以将本地机器上的输出作为逗号分隔文件获取,我可以使用该文件并让 HCatalog 自动在 Hue 界面中加载数据。截至目前,输出是用空格分隔的,这在 Hue 中是有问题的,因为帖子的标题包含空格。
提前致谢!这让我很难过。
hadoop - 从文件创建 HCatalog 架构
我有一个 csv 文件,其中包含大约一千个不同的列,我想将其制成 Hive 表和 HCatalog 模式,而无需单独输入每个字段。这可能吗?如果是这样,有人可以指出我正确的方向,谢谢。
hadoop - 如何使用 HCatalog 将存储文件格式指定为 ORCFile?
根据文档,HCatalog 支持 RCFile 格式、文本文件、SequenceFiles 或 ORC 文件。
我无法找到有关如何将 HCatalog 中的存储类型指定为 ORCFiles 的详细信息。
apache-pig - WebHCat & Pig - 如何将参数文件传递给作业?
我正在使用 HCatalog 的 WebHCat API 来运行 Pig 作业,例如此处记录:
https://cwiki.apache.org/confluence/display/Hive/WebHCat+Reference+Pig
我运行一个简单的作业没有问题,但我想将一个参数文件附加到作业中,例如可以使用 pig 命令行的参数:--param_file
.
我假设这可以通过arg
请求的参数实现,所以我尝试了多种方法,例如传递:
或者:
似乎没有一个工作,错误堆栈并没有说太多。我很想知道这是否可行,如果可以,如何正确实现。
非常感谢
java - 尝试将数据写入 HCatalog(在 MapReduce 之外)时出现 InvalidProtocolBufferException
我的测试代码:
当我运行它时,我得到一个异常:
任何可能有问题的建议或至少我应该尝试进一步调查的任何建议都将非常感激,我不知道如何从这个地方移开。
hadoop - 有没有办法从 HCATALOG 访问配置单元元存储表?
在我的应用程序中,我使用来自 JDBC 的 hive metastore(mysql)。现在要求发生了变化,我将无法获得元存储凭据。因此我不能使用 JDBC 来访问 Metastore。
我想知道,有没有办法从 HCATALOG 访问像 TBLS 和 INDXS 这样的 hivemetastore 表?提前致谢。
apache-pig - PigLatin - 将数据插入现有分区?
我有一个文件test_file_1.txt
包含:
和文件test_file_2.txt
包含:
在 HCatalog 中有一个表:
这两个脚本运行良好:
脚本 1:
脚本 2:
表partition_pk
包含四个分区 - 一切都符合预期。
但是可以说,还有另一个文件包含应该插入到现有分区之一中的数据。Pig 无法写入包含数据的分区(或者我错过了什么?)您如何管理加载到现有分区(在非空的非分区表上)?您是否读取分区,将其与新数据合并,删除分区(如何?)并将其作为新分区插入?
hadoop - PIG 使用 HCatLoader,Java 堆空间错误
我正在使用hive-0.12.0,pig-0.12.0,mysql-5.6
和hadoop-1.2.1
伪分发模式。
我PIG_CLASSPATH
根据链接配置了 etc.. 详细信息,
https://cwiki.apache.org/confluence/display/Hive/HCatalog+LoadStore
当我尝试使用HCatloader将在 hive 中创建的表加载到pig中时,它给出了 Java 堆空间错误。
详细情况如下:
hive.metastore - 尝试使用 URI thrift://127.0.0.1:3306 2014-04-11 01:12:36,432 [main] INFO hive.metastore - 在下次连接尝试前等待 1 秒。2014-04-11 01:12:37,432 [main] 信息 hive.metastore - 连接到 Metastore。2014-04-11 01:12:37,785 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 2998:未处理的内部错误。日志文件中的 Java 堆空间详细信息:/home/aphadoop/pig_1397158893348.log
有没有人遇到同样的错误并解决了?
请告诉我。
hadoop - 在 HDP Hue Pig UI 中运行任何 Pig 作业时出错。错误:“请初始化 HIVE_HOME”
当我尝试从 Hue Pig UI 启动 Pig 脚本作业时,进程会启动一个作业,然后进度条会在那里停留 1-3 分钟,最终变成红色,唯一的输出是:“请初始化 HIVE_HOME。”
我尝试运行的我的 Pig 脚本是HDP 安装手册中的 Pig 验证中的脚本。
Pig 脚本:
A = 使用 PigStorage(':') 加载'passwd';
B = foreach A 生成 \$0 作为 id;将 B 存储到 '/tmp/id.out' 中;
我正在尝试让 Hortonworks Data Platform 的 Hue 版本(根据他们的网站为 v2.3 )中的 Pig 脚本 UI 工作。我正在手动执行此操作,使用 yum 安装我需要的软件包并手动设置配置。我正在使用 CentOS 6.4 在 Amazon AWS 机器上工作。我正在关注此安装文档。
最初我认为我需要启动并运行 Oozie 才能从 Hue 执行 Pig Job,但是在跟踪 Hue 日志时,我看到它在执行 Pig 脚本时正在启动 WebHCat,因此我安装并验证了 WebHCat 正在运行到 http://$WebHCat.server.full.hostname:50111/templeton/v1/status 并验证我收到了非错误响应。因此,我完全相信 WebHCat 工作正常。我还必须注意,由于 core-site.xml 中的配置允许 Hue 用户在运行作业时冒充 hdfs 用户,Hue 用户正在运行 WebHCat 服务器,这是我之前遇到的一个错误试图在 Hue UI 中运行 Pig 脚本。
到目前为止,我已经在实际 Pig程序文件中的代码块中找到了错误。有问题的代码块是:
这个代码块导致问题的事实非常令人困惑,而且我自己无法追踪错误。
我知道这个 if-else 子句: if [ -d "/usr/lib/hive" ]; 然后 HIVE_HOME=/usr/lib/hive else echo "Please initialize HIVE_HOME" exit -1 fi 是错误的根源,但我不明白为什么它没有识别出安装 Hive 的那个 lib 目录确实存在.
这就是我卡住的地方。我知道“/usr/lib/hive”存在,因为我已验证该目录存在于运行 Hue、WebHCat 和 Pig 的机器上。我不知道如何调试这里出了什么问题。我考虑过手动设置 HIVE_HOME,但这可能没有实际意义,因为 Pig 没有识别出该目录存在于文件系统中,因此如果它稍后在代码中尝试访问该路径会出错。
在这一点上,我可能会遗漏一些明显的东西,但我将非常感谢我能得到的任何帮助。
hortonworks-data-platform - hCatalog 页面出现错误
我正在使用 HortonWorks 沙盒来尝试一些示例。以下页面在 UI 上显示“错误”(超时)http://:8000/hcatalog/
详细的服务器日志:
[25/Apr/2014 13:07:49 +0000] 中间件信息处理异常:超时(代码 THRIFTSOCKET):无:
回溯(最近一次调用):
文件“/usr/lib/hue/build/env/lib /python2.6/site-packages/Django-1.2.3-py2.6.egg/django/core/handlers/base.py”,第 100 行,在 get_response response = callback(request, *callback_args, ** callback_kwargs)
有什么建议吗?