问题标签 [apache-pig]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5188 问题

0 投票

1 回答

660 浏览

hadoop - PIG 和 HIVE 可以称为单独的编程模型吗？

这个问题可能听起来很烦人，实际上可能与真正的编程没有任何关系。这是我与一位同事进行的一场小型辩论的衍生产品。他一直坚持认为 HIVE 和 PIG 可以被称为独立的“编程模型”，因为当你在这些中编写 MapReduce 作业时，你真的不需要在 MapReduce 中思考——特别是如果你在 HIVE 中编程。从程序员的角度来看，MapReduce 部分是完全抽象的。它完全类似于 SQL。

但我有点不同意，因为用这些语言编写的脚本最终会转换为多个 mapreduce 作业。因此，这些可以称为更高级别的编程语言来为相同的模型进行编程。并且应该从等待处理的底层数据的角度来看待编程模型这个词，而不是程序员。

你怎么看？

hadoop apache-pig hive

2011-02-11T17:23:13.047

0 投票

7 回答

30558 浏览

json - 如何在 Pig 中解析 JSON？

我在 s3 中有很多 gzip 的日志文件，它们有 3 种类型的日志行：b、c、i。i 和 c 都是单级 json：

类型 b 是深度嵌套的 json。我遇到了这个要点，谈论编译一个罐子来完成这项工作。由于我的 Java 技能不那么出色，所以我真的不知道从这里该做什么。

由于类型 i 和 c 的顺序并不总是相同，这使得在生成正则表达式中指定所有内容变得困难。是否可以使用 Pig 处理 JSON（在 gzip 文件中）？我正在使用基于 Amazon Elastic Map Reduce 实例构建的任何版本的 Pig。

这归结为两个问题：1）我可以用 Pig 解析 JSON（如果可以，如何解析）？2) 如果我可以解析 JSON（来自 gzip 的日志文件），我可以解析嵌套的 JSON 对象吗？

json apache-pig

2011-02-16T05:59:00.990

0 投票

1 回答

4842 浏览

hadoop - 如何读取 PIG UDF 中的静态文件

我是 PIG 和 Hadoop 的新手。我编写了一个 PIG UDF，它对 String 进行操作并返回一个字符串。我实际上使用了一个已经存在的 jar 中的类，其中包含 udf 中的业务逻辑。类构造函数将 2 个文件名作为输入，用于构建一些用于处理输入的字典。如何让它在 mapreduce 模式下工作我尝试在 pig 本地模式下传递文件名它工作正常。但我不知道如何让它在 mapreduce 模式下工作？分布式缓存能解决问题吗？

这是我的代码

据我了解，tokenParser.jar 必须使用某种 BufferedInputReader。是否可以在不更改 tokenParser.jar 的情况下使其工作

hadoop apache-pig

2011-02-24T15:25:31.257

0 投票

2 回答

737 浏览

hadoop - Hadoop Hypercube

Hey, i am starting a hadoop based hypercube with a flexible number of dimensions. Does anybody know any existing approaches for this?

I just found PigOLAPSketch, but there is no code to use it.

Another approach is Zohmg from lastfm, which uses hbase, but seems to be very dead.

I think i will start a pig solution, maybe you have some advices?

hadoop olap apache-pig hypertable hypercube

2011-03-03T13:53:20.063

0 投票

1 回答

20402 浏览

hadoop - PIG 中整套记录的 Max/Min

我有一组从文件加载的记录，我需要做的第一件事是获取列的最大值和最小值。在 SQL 中，我会使用这样的子查询来做到这一点：

我认为在 PIG 中也必须有一种简单的方法来做到这一点，但我很难找到它。它具有 MAX 和 MIN 功能，但是当我尝试执行以下操作时，它不起作用：

这没有用。我最好为每一行添加一个具有相同值的额外列，然后将它们分组到该列上。然后在那个新组中获得最大值。这似乎是一种获得我想要的东西的复杂方式，所以我想我会问是否有人知道更简单的方法。

在此先感谢您的帮助。

hadoop apache-pig

2011-03-07T18:17:16.730

0 投票

2 回答

2597 浏览

hadoop - 使用 Hadoop Pig 生成多个输出

我有这个文件，其中包含 Hadoop 中的数据列表。我已经构建了一个简单的 Pig 脚本，它通过id 号分析文件，依此类推......

我正在寻找的最后一步是：我想为每个唯一的id number创建（存储）一个文件。所以这应该取决于一个组步骤......但是，我不明白这是否可能（也许有一个自定义商店模块？）。

任何想法？

谢谢

丹尼尔

hadoop apache-pig

2011-03-11T11:52:29.560

0 投票

3 回答

1499 浏览

hadoop - hadoop/pig导入日志的多级目录

我们将日志存储在 S3 中，我们的一个（Pig）查询将获取三种不同的日志类型。每个日志类型都在基于类型/日期的子目录集中。例如：

我的查询想要在一段时间内加载所有三种类型的日志。例如：

然后我的查询将针对所有这些日志运行。

处理此问题的最有效方法是什么？

我们需要使用 bash 脚本扩展吗？不确定这是否适用于多目录，我怀疑如果有 10k 日志要加载，它是否有效（甚至可能）。
我们是否创建一个服务来聚合所有日志并将它们直接推送到 hdfs？
自定义 java/python 导入器？
其他想法？

如果您也可以留下一些示例代码（如果合适的话），那将很有帮助。

谢谢

hadoop hdfs apache-pig

2011-03-11T20:01:55.550

0 投票

1 回答

931 浏览

apache-pig - Apache Pig：来自网络日志的额外查询参数

我正在分析 AWS CloudFront 访问日志。

我有加载文件行的代码

现在我正在尝试解析查询字符串参数（名称/值对）：

如何在我的 raw_logs2 表中为查询字符串中的 p、s 和 gci 的值添加额外的列？

apache-pig amazon-cloudfront

2011-03-14T21:58:34.510

0 投票

3 回答

3759 浏览

hadoop - 如何从 Hadoop 的 Pig 处理的文件中修剪标题行？

我正在尝试通过 Pig 程序使用 Amazon 的 Elastic Map Reduce 解析我们的服务生成的制表符分隔的数据文件。一切进展顺利，除了我们所有的数据文件都包含一个标题行，该行定义了每一列的用途。显然，（字符串）标题不能转换为数字数据值，所以我从 Pig 收到如下警告：

我在 load 语句之后有一个过滤器，它试图确保我以后不会对任何标题行进行操作（通过过滤掉标题术语），但我想摆脱警告噪音以避免掩盖任何潜在的问题（例如未正确转换的实际数据字段）。

这可能吗？

hadoop apache-pig

2011-03-17T23:02:46.643

0 投票

1 回答

1072 浏览

php - 使用 php 的猪脚本

是否可以使用任何其他编程语言（如 PHP）运行 pig 脚本？

php apache-pig cassandra-0.7

2011-03-29T06:27:30.977

1 2 3 4 5 6 7 8 9 10