问题标签 [elephantbird]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3221 浏览

hadoop - 在 Pig 中用大象鸟解析 Json

我无法在 Pig 中解析以下数据。这是 twitter API 在获得某个用户的所有推文后返回的内容。

源数据:(我删除了一些数字,以免意外侵犯任何人的隐私)

我已经尝试了很多东西,但这是我拥有的当前代码:

如果我没有收到错误,我只是没有返回(在脚本运行完成后返回 0 个字节)

例如:

0 投票
1 回答
3378 浏览

hadoop - 使用带蜂巢的大象鸟来读取 protobuf 数据

我有一个类似的问题

以下是我使用的:

  1. CDH4.4(蜂巢 0.10)
  2. protobuf-java-.2.4.1.jar
  3. 大象鸟蜂巢 4.6-SNAPSHOT.jar
  4. 大象鸟核心4.6-SNAPSHOT.jar
  5. 大象鸟hadoop-compat-4.6-SNAPSHOT.jar
  6. 包含 protoc 编译的 .class 文件的 jar 文件。

我流协议缓冲区java教程创建我的数据“testbook”。

和我

用于hdfs dfs -mkdir /protobuf_data创建 HDFS 文件夹。

用于hdfs dfs -put testbook /protobuf_data将“testbook”放入 HDFS。

然后我按照大象鸟网页创建表,语法是这样的:

一切正常。

但是当我提交查询时select * from addressbook;没有结果出来。

而且我找不到要调试的错误日志。

有人可以帮助我吗?

非常感谢

0 投票
1 回答
440 浏览

json - 如何在 pig 中使用 JsonLoader 加载数据

假设我有一个这种形式的 json 文件:

以下是我编写的猪脚本,它只允许加载和转储文件:

这是我得到的结果:

实际上,我尝试了数十种元组和包的组合,以确保 A 被正确加载而不是部分加载。不幸的是,没有人工作。任何帮助将不胜感激

0 投票
2 回答
638 浏览

hadoop - 大象-鸟-猪-JsonLoader() 所需的罐子

我需要注册哪些罐子才能使用大象-鸟-猪-JsonLoader 函数?

0 投票
1 回答
302 浏览

arrays - 我如何使用 jsonloader 为数组定义模式?

我正在使用大象鸟项目将 json 文件加载到猪。但我不确定如何在加载时定义架构。没有找到相同的描述。

数据:

代码:

结果:

我如何为它们提供正确的模式(int、string、array、array)以及如何将数组元素展平为行?

提前致谢

0 投票
0 回答
217 浏览

python - 带蜂巢的象鸟查询protobuf文件

我正在尝试使用HiveElephant Bird查询Protobuf文件。我可以创建表,但是当我查询它时没有任何反应。

通过这个stackoverflow线程,我意识到我需要将我的写入protobufs序列文件。

我该怎么做?我需要用javapython编写一个单独的脚本吗?

0 投票
1 回答
209 浏览

json - 使用大象鸟罐子的猪 JsonLoader() 处理 twitter 的复杂 json 对象时出错

我想使用大象鸟罐子处理带有猪的 twitter json 对象,我为此编写了猪脚本,如下所示。

这给了我如下错误

我不知道如何处理,任何人都可以帮助我。

0 投票
0 回答
248 浏览

json - 使用 Pig 加载 JSON 数组

我有一个格式为每行 JSON 数组的文件。

就像是

我在 Amazon EMR 上运行以下命令:

JSON 中的每一行都出现以下错误:

我错过了什么吗?

0 投票
1 回答
480 浏览

maven - 构建象鸟猪时出错

根据评论要求,这是最后一次转储

http://textuploader.com/ay4a8


更新 #2我检查了错误中提到的在线回购

http://maven.twttr.com/com/twitter/elephant-bird/

它是空的。我应该怎么办?


更新 #1它不是强制更新的副本。

我试过了

这产生了相同的错误,除了它再次开始下载文件并且需要更长的时间才能到达错误。


原创内容

我一直在努力工作(12 小时以上),试图在我$HOME的共享研究目的集群中本地安装大象鸟。经过12 个小时以上的努力,我仍然迷失在大海中。有好心人把我拉上船吗?

我努力安装正确版本的protocol-buffers(2.5.0 版)和thrift(0.7.0 版)。

执行版本检查给出:

好的,一切看起来都很好。下载大象鸟

光盘进入目录并运行

-Dprotobuf.version=2.5.0大象鸟的官方 github建议我运行的是非默认版本的protocol-buffers. 这篇文章-Dmaven.test.skip=true给出了建议,因为我在大象鸟核心构建期间确实没有通过一些测试。

好吧,让我们运行相同的命令-X

现在怎么办?

0 投票
1 回答
196 浏览

json - 解析 Hadoop 中包含的复杂 Json 字符串

我想在 Pig 中解析一串复杂的 JSON。具体来说,我希望 Pig 将我的 JSON 数组理解为一个包而不是单个字符数组。我发现可以使用Twitter 的 Elephant BirdMozilla 的 Akela库来解析复杂的 JSON。(我发现了一些额外的库,但我不能使用基于“加载器”的方法,因为我使用 HCatalog 加载器从 Hive 加载数据。)

但是,问题在于我的数据结构;Map 结构的每个值都包含复杂 JSON 的值部分。例如,

我猜想“attempt1”失败了,因为该值不包含完整的 JSON。但是,当我像“attempt2”一样 CONCAT 时,我会生成额外的 \ 标记。(所以每一行都以 {\"key\":开头 )我不确定这个额外的标记是否违反了解析规则。无论如何,我想解析给定的 JSON 字符串,以便 Pig 可以理解。如果您有任何方法或解决方案,请随时告诉我。