问题标签 [apache-pig]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
660 浏览

hadoop - PIG 和 HIVE 可以称为单独的编程模型吗?

这个问题可能听起来很烦人,实际上可能与真正的编程没有任何关系。这是我与一位同事进行的一场小型辩论的衍生产品。他一直坚持认为 HIVE 和 PIG 可以被称为独立的“编程模型”,因为当你在这些中编写 MapReduce 作业时,你真的不需要在 MapReduce 中思考——特别是如果你在 HIVE 中编程。从程序员的角度来看,MapReduce 部分是完全抽象的。它完全类似于 SQL。

但我有点不同意,因为用这些语言编写的脚本最终会转换为多个 mapreduce 作业。因此,这些可以称为更高级别的编程语言来为相同的模型进行编程。并且应该从等待处理的底层数据的角度来看待编程模型这个词,而不是程序员。

你怎么看?

0 投票
7 回答
30558 浏览

json - 如何在 Pig 中解析 JSON?

我在 s3 中有很多 gzip 的日志文件,它们有 3 种类型的日志行:b、c、i。i 和 c 都是单级 json:

类型 b 是深度嵌套的 json。我遇到了这个要点,谈论编译一个罐子来完成这项工作。由于我的 Java 技能不那么出色,所以我真的不知道从这里该做什么。

由于类型 i 和 c 的顺序并不总是相同,这使得在生成正则表达式中指定所有内容变得困难。是否可以使用 Pig 处理 JSON(在 gzip 文件中)?我正在使用基于 Amazon Elastic Map Reduce 实例构建的任何版本的 Pig。

这归结为两个问题:1)我可以用 Pig 解析 JSON(如果可以,如何解析)?2) 如果我可以解析 JSON(来自 gzip 的日志文件),我可以解析嵌套的 JSON 对象吗?

0 投票
1 回答
4842 浏览

hadoop - 如何读取 PIG UDF 中的静态文件

我是 PIG 和 Hadoop 的新手。我编写了一个 PIG UDF,它对 String 进行操作并返回一个字符串。我实际上使用了一个已经存在的 jar 中的类,其中包含 udf 中的业务逻辑。类构造函数将 2 个文件名作为输入,用于构建一些用于处理输入的字典。如何让它在 mapreduce 模式下工作我尝试在 pig 本地模式下传递文件名它工作正常。但我不知道如何让它在 mapreduce 模式下工作?分布式缓存能解决问题吗?

这是我的代码

据我了解,tokenParser.jar 必须使用某种 BufferedInputReader。是否可以在不更改 tokenParser.jar 的情况下使其工作

0 投票
2 回答
737 浏览

hadoop - Hadoop Hypercube

Hey, i am starting a hadoop based hypercube with a flexible number of dimensions. Does anybody know any existing approaches for this?

I just found PigOLAPSketch, but there is no code to use it.

Another approach is Zohmg from lastfm, which uses hbase, but seems to be very dead.

I think i will start a pig solution, maybe you have some advices?

0 投票
1 回答
20402 浏览

hadoop - PIG 中整套记录的 Max/Min

我有一组从文件加载的记录,我需要做的第一件事是获取列的最大值和最小值。在 SQL 中,我会使用这样的子查询来做到这一点:

我认为在 PIG 中也必须有一种简单的方法来做到这一点,但我很难找到它。它具有 MAX 和 MIN 功能,但是当我尝试执行以下操作时,它不起作用:

这没有用。我最好为每一行添加一个具有相同值的额外列,然后将它们分组到该列上。然后在那个新组中获得最大值。这似乎是一种获得我想要的东西的复杂方式,所以我想我会问是否有人知道更简单的方法。

在此先感谢您的帮助。

0 投票
2 回答
2597 浏览

hadoop - 使用 Hadoop Pig 生成多个输出

我有这个文件,其中包含 Hadoop 中的数据列表。我已经构建了一个简单的 Pig 脚本,它通过id 号分析文件,依此类推......

我正在寻找的最后一步是:我想为每个唯一的id number创建(存储)一个文件。所以这应该取决于一个组步骤......但是,我不明白这是否可能(也许有一个自定义商店模块?)。

任何想法?

谢谢

丹尼尔

0 投票
3 回答
1499 浏览

hadoop - hadoop/pig导入日志的多级目录

我们将日志存储在 S3 中,我们的一个(Pig)查询将获取三种不同的日志类型。每个日志类型都在基于类型/日期的子目录集中。例如:

我的查询想要在一段时间内加载所有三种类型的日志。例如:

然后我的查询将针对所有这些日志运行。

处理此问题的最有效方法是什么?

  1. 我们需要使用 bash 脚本扩展吗?不确定这是否适用于多目录,我怀疑如果有 10k 日志要加载,它是否有效(甚至可能)。
  2. 我们是否创建一个服务来聚合所有日志并将它们直接推送到 hdfs?
  3. 自定义 java/python 导入器?
  4. 其他想法?

如果您也可以留下一些示例代码(如果合适的话),那将很有帮助。

谢谢

0 投票
1 回答
931 浏览

apache-pig - Apache Pig:来自网络日志的额外查询参数

我正在分析 AWS CloudFront 访问日志。

我有加载文件行的代码

现在我正在尝试解析查询字符串参数(名称/值对):

如何在我的 raw_logs2 表中为查询字符串中的 p、s 和 gci 的值添加额外的列?

0 投票
3 回答
3759 浏览

hadoop - 如何从 Hadoop 的 Pig 处理的文件中修剪标题行?

我正在尝试通过 Pig 程序使用 Amazon 的 Elastic Map Reduce 解析我们的服务生成的制表符分隔的数据文件。一切进展顺利,除了我们所有的数据文件都包含一个标题行,该行定义了每一列的用途。显然,(字符串)标题不能转换为数字数据值,所以我从 Pig 收到如下警告:

我在 load 语句之后有一个过滤器,它试图确保我以后不会对任何标题行进行操作(通过过滤掉标题术语),但我想摆脱警告噪音以避免掩盖任何潜在的问题(例如未正确转换的实际数据字段)。

这可能吗?

0 投票
1 回答
1072 浏览

php - 使用 php 的猪脚本

是否可以使用任何其他编程语言(如 PHP)运行 pig 脚本?