问题标签 [elephantbird]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

53 问题

0 投票

1 回答

3221 浏览

hadoop - 在 Pig 中用大象鸟解析 Json

我无法在 Pig 中解析以下数据。这是 twitter API 在获得某个用户的所有推文后返回的内容。

源数据：（我删除了一些数字，以免意外侵犯任何人的隐私）

我已经尝试了很多东西，但这是我拥有的当前代码：

如果我没有收到错误，我只是没有返回（在脚本运行完成后返回 0 个字节）

例如：

2014-11-03T15:49:38.977

0 投票

1 回答

3378 浏览

hadoop - 使用带蜂巢的大象鸟来读取 protobuf 数据

我有一个类似的问题

以下是我使用的：

CDH4.4（蜂巢 0.10）
protobuf-java-.2.4.1.jar
大象鸟蜂巢 4.6-SNAPSHOT.jar
大象鸟核心4.6-SNAPSHOT.jar
大象鸟hadoop-compat-4.6-SNAPSHOT.jar
包含 protoc 编译的 .class 文件的 jar 文件。

我流协议缓冲区java教程创建我的数据“testbook”。

和我

用于hdfs dfs -mkdir /protobuf_data创建 HDFS 文件夹。

用于hdfs dfs -put testbook /protobuf_data将“testbook”放入 HDFS。

然后我按照大象鸟网页创建表，语法是这样的：

一切正常。

但是当我提交查询时select * from addressbook;没有结果出来。

而且我找不到要调试的错误日志。

有人可以帮助我吗？

非常感谢

hadoop hive protocol-buffers elephantbird

2015-01-06T04:07:49.557

0 投票

1 回答

440 浏览

json - 如何在 pig 中使用 JsonLoader 加载数据

假设我有一个这种形式的 json 文件：

以下是我编写的猪脚本，它只允许加载和转储文件：

这是我得到的结果：

实际上，我尝试了数十种元组和包的组合，以确保 A 被正确加载而不是部分加载。不幸的是，没有人工作。任何帮助将不胜感激

json apache-pig elephantbird

2015-03-30T15:15:04.547

0 投票

2 回答

638 浏览

hadoop - 大象-鸟-猪-JsonLoader() 所需的罐子

我需要注册哪些罐子才能使用大象-鸟-猪-JsonLoader 函数？

hadoop elephantbird

2015-04-07T06:06:11.787

0 投票

1 回答

302 浏览

arrays - 我如何使用 jsonloader 为数组定义模式？

我正在使用大象鸟项目将 json 文件加载到猪。但我不确定如何在加载时定义架构。没有找到相同的描述。

数据：

代码：

结果：

我如何为它们提供正确的模式（int、string、array、array）以及如何将数组元素展平为行？

提前致谢

arrays json apache-pig elephantbird

2015-04-07T20:45:42.367

0 投票

0 回答

217 浏览

python - 带蜂巢的象鸟查询protobuf文件

我正在尝试使用Hive和Elephant Bird查询Protobuf文件。我可以创建表，但是当我查询它时没有任何反应。

通过这个stackoverflow线程，我意识到我需要将我的写入protobufs序列文件。

我该怎么做？我需要用java或python编写一个单独的脚本吗？

python hadoop hive protocol-buffers elephantbird

2015-06-09T23:59:26.100

0 投票

1 回答

209 浏览

json - 使用大象鸟罐子的猪 JsonLoader() 处理 twitter 的复杂 json 对象时出错

我想使用大象鸟罐子处理带有猪的 twitter json 对象，我为此编写了猪脚本，如下所示。

这给了我如下错误

我不知道如何处理，任何人都可以帮助我。

json hadoop twitter apache-pig elephantbird

2015-08-25T05:58:28.623

0 投票

0 回答

248 浏览

json - 使用 Pig 加载 JSON 数组

我有一个格式为每行 JSON 数组的文件。

就像是

我在 Amazon EMR 上运行以下命令：

JSON 中的每一行都出现以下错误：

我错过了什么吗？

json apache-pig elephantbird

2015-09-28T21:32:52.647

0 投票

1 回答

480 浏览

maven - 构建象鸟猪时出错

根据评论要求，这是最后一次转储

http://textuploader.com/ay4a8

更新 #2我检查了错误中提到的在线回购

http://maven.twttr.com/com/twitter/elephant-bird/

它是空的。我应该怎么办？

更新 #1它不是强制更新的副本。

我试过了

这产生了相同的错误，除了它再次开始下载文件并且需要更长的时间才能到达错误。

原创内容

我一直在努力工作（12 小时以上），试图在我$HOME的共享研究目的集群中本地安装大象鸟。经过12 个小时以上的努力，我仍然迷失在大海中。有好心人把我拉上船吗？

我努力安装正确版本的protocol-buffers（2.5.0 版）和thrift（0.7.0 版）。

执行版本检查给出：

好的，一切看起来都很好。下载大象鸟

光盘进入目录并运行

-Dprotobuf.version=2.5.0大象鸟的官方 github建议我运行的是非默认版本的protocol-buffers. 这篇文章-Dmaven.test.skip=true给出了建议，因为我在大象鸟核心构建期间确实没有通过一些测试。

好吧，让我们运行相同的命令-X：

现在怎么办？

maven hadoop build apache-pig elephantbird

2015-10-11T00:24:39.627

0 投票

1 回答

196 浏览

json - 解析 Hadoop 中包含的复杂 Json 字符串

我想在 Pig 中解析一串复杂的 JSON。具体来说，我希望 Pig 将我的 JSON 数组理解为一个包而不是单个字符数组。我发现可以使用Twitter 的 Elephant Bird或Mozilla 的 Akela库来解析复杂的 JSON。（我发现了一些额外的库，但我不能使用基于“加载器”的方法，因为我使用 HCatalog 加载器从 Hive 加载数据。）

但是，问题在于我的数据结构；Map 结构的每个值都包含复杂 JSON 的值部分。例如，

我猜想“attempt1”失败了，因为该值不包含完整的 JSON。但是，当我像“attempt2”一样 CONCAT 时，我会生成额外的 \ 标记。（所以每一行都以 {\"key\":开头）我不确定这个额外的标记是否违反了解析规则。无论如何，我想解析给定的 JSON 字符串，以便 Pig 可以理解。如果您有任何方法或解决方案，请随时告诉我。

json hadoop apache-pig elephantbird

2015-11-27T02:07:14.397

1 2 3 4 5 6 7 8 9 10

问题标签 [elephantbird]

Reference