问题标签 [apache-pig]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5188 问题

0 投票

1 回答

3681 浏览

apache-pig - 将 Hive 与 Pig 一起使用

我的 hive 查询有多个外部连接，执行时间很长。我想知道将其分解为多个较小的查询并使用 pig 进行转换是否有意义。

有没有办法可以在猪脚本中查询配置单元表或读取配置单元表数据？

谢谢

apache-pig hive

2010-09-27T05:31:32.057

0 投票

1 回答

1032 浏览

php - Pig 的 PHP 流

我有一个 Pig 脚本——当前在本地模式下运行——它处理一个包含类别列表的巨大文件：

我需要通过调用存储过程将这些中的每一个插入到现有数据库中。因为我是 Pig 新手，而且 UDF 界面有点令人生畏，所以我试图通过 PHP 脚本流式传输文件的内容来完成一些工作。

不过，我发现 PHP 脚本只能看到我通过它的类别行的一半。更准确地说，我看到了返回的记录ceil( pig_categories/2 )。通过 PHP 脚本流式传输后，限制为 15 将产生 8 个条目——最后一个将为空。

关于我所缺少的任何想法。我已经翻阅 Pig 参考手册一段时间了，似乎没有太多与通过 PHP 脚本流式传输相关的信息。我也尝试过 IRC 上的#hadoop 频道，但无济于事。任何指导将不胜感激。

谢谢。

更新

很明显，这与 EOL 相关。如果我将 PHP 脚本从 using 更改fgets()为stream_get_line()，那么我会返回 10 个项目，但应该首先出现的记录会被跳过，并且会显示一个尾随的空记录。

在该结果集中，应该有的第一项(Arts)。接近了，但仍有一些差距要缩小。

2010-09-28T17:59:14.433

0 投票

6 回答

28456 浏览

syntax - 如何在 Apache Pig 中使用地图数据类型？

我想使用 Apache Pig 构建一个大键 -> 值映射，在映射中查找内容，然后遍历键。然而，做这些事情似乎没有语法；我检查了手册、wiki、示例代码、大象书、谷歌，甚至尝试解析解析器源。每个示例都从文件中加载地图文字......然后从不使用它们。如何使用 Pig 的地图？

首先，似乎没有办法将 2 列 CSV 文件直接加载到地图中。如果我有一个简单的map.csv：

我尝试将其加载为地图：

我得到三个空元组：

所以我尝试加载元组然后生成地图：

语法的许多变体也失败了（例如，generate [$0#$1]）。

好的，所以我将我的地图转换为 Pig 的地图文字格式map.pig：

并加载它：

现在让我们加载一些键并尝试查找：

Hrm，好吧，可能因为涉及到两个关系，我们需要一个join：

失败。如何引用地图的键（或值）？映射模式语法似乎不允许您命名键和值（邮件列表说无法分配类型）。

最后，我只想能够在我的地图中找到他们所有的键：

猪的地图类型是半生不熟的吗？我错过了什么？

syntax map hadoop apache-pig

2010-11-01T14:07:42.953

0 投票

2 回答

558 浏览

amazon-web-services - 使用 Elastic MapReduce (PIG) 处理 CloudFront 日志

我想处理 Amazon CloudFront 使用 Amazon Elastic MapReduce 创建的访问日志。

我只需要一些关于从云端加载不同文件的次数的简单统计信息，所以我认为我应该为此编写一个简单的 PIG 脚本。

我遇到的第一个问题是云端写入 gzip 压缩的日志，据我所知，我无法在猪中读取 .gz？

关于我应该如何做到这一点的任何建议？我对弹性 mapreduce 非常陌生，因此欢迎任何有关如何构建此类工作的提示。

amazon-web-services mapreduce amazon-cloudfront apache-pig

2010-11-01T15:49:13.410

0 投票

1 回答

1392 浏览

ubuntu - Apache Pig 和 Hadoop Connection 中运行教程脚本的环境设置是什么？

我试图在 Ubuntu 中运行 pig 教程脚本两天，但是我无法让 pig 连接到 hadoop 文件系统。它仍然在说：“连接到 hadoop 文件系统：file:///”

其实hadoop和pig都可以用，我可以用，pig安装下的pig脚本也可以连接hadoop。"Connecting to hadoop file system at: hdfs://localhost:54310" 我的hadoop目录在/home/hadoop/Cluster下，pig安装在/usr/share/pig下，pig教程是home/hadoop/pig和hadoop安装是 /home/someuser/hadoop 。

我已经尝试了网络中的几乎所有解决方案，但我仍然需要一些帮助。任何想法将不胜感激。

提前致谢。

ubuntu hadoop apache-pig

2010-11-11T12:03:16.343

0 投票

1 回答

131 浏览

hadoop - pig hadoop needed for I want to do?

I have a question for you, well a clarification...

I developed a program that uses hadoop map reduce wich gets just a column from a dataset (csv file) and process this data with some functions, so this program is finished, but the real question is Is a good idea to develop this program in Pig? note that in the process of the file I dont use FILTERS COUNTS or any built in function of Pig...

Am I right if I say that passing this hadoop map reduce program to Pig has no sense? because all my functions will need to be rewrited as a Pig User Defined Function UDF...

hadoop apache-pig required

2010-11-12T04:50:22.110

0 投票

4 回答

35609 浏览