0

我有一些猪输出文件,想在另一台机器上读取它们(没有安装 hadoop)。我只想读取一个制表符分隔的纯文本行并将其解析为一个 java 对象。我猜我们应该能够使用 pig.jar 作为依赖项并能够读取它。我找不到相关文件。我认为可以使用这个类?我们如何也提供模式。

4

2 回答 2

1

我建议您以 Avro 序列化格式存储数据。它与 Pig 无关,它允许处理您所描述的复杂数据结构(因此您无需编写自己的解析器)。有关示例,请参阅本文

于 2013-10-11T07:53:47.533 回答
0

你的猪输出文件只是文本文件,对吧?然后你就不需要任何猪或 hadoop 罐子了。上次我使用 Pig 是在亚马逊的 EMR 平台上,输出文件存储在 s3 存储桶中。它们只是文本文件,标准 java 可以读取文件。

您引用的那个类是用于从某种文本格式读入 pig 的。

您是否需要一个库来将猪数据模型解析为 java 对象?即元组和包等的文本表示?如果是这样,那么自己编写可能更容易。这是一个非常简单的数据模型,只有 3 种数据类型。

于 2013-10-10T00:57:13.260 回答