问题标签 [elephantbird]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 在 Pig 中用大象鸟解析 Json
我无法在 Pig 中解析以下数据。这是 twitter API 在获得某个用户的所有推文后返回的内容。
源数据:(我删除了一些数字,以免意外侵犯任何人的隐私)
我已经尝试了很多东西,但这是我拥有的当前代码:
如果我没有收到错误,我只是没有返回(在脚本运行完成后返回 0 个字节)
例如:
hadoop - 使用带蜂巢的大象鸟来读取 protobuf 数据
我有一个类似的问题
以下是我使用的:
- CDH4.4(蜂巢 0.10)
- protobuf-java-.2.4.1.jar
- 大象鸟蜂巢 4.6-SNAPSHOT.jar
- 大象鸟核心4.6-SNAPSHOT.jar
- 大象鸟hadoop-compat-4.6-SNAPSHOT.jar
- 包含 protoc 编译的 .class 文件的 jar 文件。
我流协议缓冲区java教程创建我的数据“testbook”。
和我
用于hdfs dfs -mkdir /protobuf_data
创建 HDFS 文件夹。
用于hdfs dfs -put testbook /protobuf_data
将“testbook”放入 HDFS。
然后我按照大象鸟网页创建表,语法是这样的:
一切正常。
但是当我提交查询时select * from addressbook;
没有结果出来。
而且我找不到要调试的错误日志。
有人可以帮助我吗?
非常感谢
json - 如何在 pig 中使用 JsonLoader 加载数据
假设我有一个这种形式的 json 文件:
以下是我编写的猪脚本,它只允许加载和转储文件:
这是我得到的结果:
实际上,我尝试了数十种元组和包的组合,以确保 A 被正确加载而不是部分加载。不幸的是,没有人工作。任何帮助将不胜感激
hadoop - 大象-鸟-猪-JsonLoader() 所需的罐子
我需要注册哪些罐子才能使用大象-鸟-猪-JsonLoader 函数?
arrays - 我如何使用 jsonloader 为数组定义模式?
我正在使用大象鸟项目将 json 文件加载到猪。但我不确定如何在加载时定义架构。没有找到相同的描述。
数据:
代码:
结果:
我如何为它们提供正确的模式(int、string、array、array)以及如何将数组元素展平为行?
提前致谢
python - 带蜂巢的象鸟查询protobuf文件
我正在尝试使用Hive和Elephant Bird查询Protobuf文件。我可以创建表,但是当我查询它时没有任何反应。
通过这个stackoverflow线程,我意识到我需要将我的写入protobufs
序列文件。
我该怎么做?我需要用java或python编写一个单独的脚本吗?
json - 使用大象鸟罐子的猪 JsonLoader() 处理 twitter 的复杂 json 对象时出错
我想使用大象鸟罐子处理带有猪的 twitter json 对象,我为此编写了猪脚本,如下所示。
这给了我如下错误
我不知道如何处理,任何人都可以帮助我。
json - 使用 Pig 加载 JSON 数组
我有一个格式为每行 JSON 数组的文件。
就像是
我在 Amazon EMR 上运行以下命令:
JSON 中的每一行都出现以下错误:
我错过了什么吗?
maven - 构建象鸟猪时出错
根据评论要求,这是最后一次转储
更新 #2我检查了错误中提到的在线回购
http://maven.twttr.com/com/twitter/elephant-bird/
它是空的。我应该怎么办?
更新 #1它不是强制更新的副本。
我试过了
这产生了相同的错误,除了它再次开始下载文件并且需要更长的时间才能到达错误。
原创内容
我一直在努力工作(12 小时以上),试图在我$HOME
的共享研究目的集群中本地安装大象鸟。经过12 个小时以上的努力,我仍然迷失在大海中。有好心人把我拉上船吗?
我努力安装正确版本的protocol-buffers
(2.5.0 版)和thrift
(0.7.0 版)。
执行版本检查给出:
好的,一切看起来都很好。下载大象鸟
光盘进入目录并运行
-Dprotobuf.version=2.5.0
大象鸟的官方 github建议我运行的是非默认版本的protocol-buffers
. 这篇文章-Dmaven.test.skip=true
给出了建议,因为我在大象鸟核心构建期间确实没有通过一些测试。
好吧,让我们运行相同的命令-X
:
现在怎么办?
json - 解析 Hadoop 中包含的复杂 Json 字符串
我想在 Pig 中解析一串复杂的 JSON。具体来说,我希望 Pig 将我的 JSON 数组理解为一个包而不是单个字符数组。我发现可以使用Twitter 的 Elephant Bird或Mozilla 的 Akela库来解析复杂的 JSON。(我发现了一些额外的库,但我不能使用基于“加载器”的方法,因为我使用 HCatalog 加载器从 Hive 加载数据。)
但是,问题在于我的数据结构;Map 结构的每个值都包含复杂 JSON 的值部分。例如,
我猜想“attempt1”失败了,因为该值不包含完整的 JSON。但是,当我像“attempt2”一样 CONCAT 时,我会生成额外的 \ 标记。(所以每一行都以 {\"key\":开头 )我不确定这个额外的标记是否违反了解析规则。无论如何,我想解析给定的 JSON 字符串,以便 Pig 可以理解。如果您有任何方法或解决方案,请随时告诉我。