问题标签 [apache-pig]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5188 问题

0 投票

1 回答

87 浏览

apache-pig - 是否可以定义我们自己的比较器类以在猪中使用 order by？

我想使用我自己的比较器类来订购元组。如果我运行“B = ORDER A by $0,$1”之类的查询，那么应该根据我的比较器进行排序。请回复...谢谢

apache-pig

2011-06-07T11:47:40.860

0 投票

2 回答

1225 浏览

user-defined-functions - 除了 apache.org 教程之外，还有关于 Pig UDF 的有用教程吗？

我已经花了几个小时来适应，但我想找到一些其他的方法来练习。

user-defined-functions apache-pig

2011-06-07T21:31:38.947

0 投票

1 回答

4317 浏览

apache-pig - Pig Script中的除数

我有上面的猪脚本代码，它计算两个计数。现在我想将 ch_count 除以 ca_count 并将其存储在一个文件中。我怎么做？

apache-pig

2011-06-24T07:52:28.930

0 投票

3 回答

1055 浏览

hadoop - 将 Hadoop Pig 输出作为 JSON 数据发布到 URL？

我有一个 Pig 作业，它分析日志文件并将摘要输出写入 S3。我不想将输出写入 S3，而是想将其转换为 JSON 有效负载并将其发布到 URL。

一些注意事项：

此作业在 Amazon Elastic MapReduce 上运行。
我可以使用 STREAM 通过外部命令传输数据，然后从那里加载。但是因为 Pig 从不向外部命令发送 EOF，这意味着我需要在每一行到达时发布它，并且我不能对它们进行批处理。显然，这会损害性能。

解决这个问题的最佳方法是什么？PiggyBank 或其他库中是否有我可以使用的东西？或者我应该写一个新的存储适配器？感谢您的意见！

hadoop apache-pig elastic-map-reduce

2011-06-28T11:50:44.547

0 投票

1 回答

636 浏览

function - 猪脚本功能问题

从下面的 Pig 代码中可以看出，我正在为 Attr1 和 Attr2 重复一组语句。有没有办法在函数中提取它？代码示例真的很有帮助。

function apache-pig

2011-06-29T06:44:57.573

0 投票

2 回答

625 浏览

memory - Apache PIG 问题

关于运行 pig 脚本/map-reduce 作业，我几乎没有问题。

我知道 pig在真正开始执行 map/reduce 作业之前会创建逻辑、物理和执行计划；我可以使用命令explain <alias_name>查看逻辑/物理计划；但是我如何查看执行计划（我想列出计划的不同 map/reduce 任务）？在 pig 执行过程中，我看到创建了许多作业（map/reduce 对）。想了解这些工作解决了什么问题。
是否有任何明确的指南可以用来理解所制定的计划，因为口水很难理解。
我可以通过更改输入文件块的数量来更改映射作业的数量。我是否也可以控制减少作业的数量？如何设置减速器的数量？
mapper/reducer 节点的默认堆内存大小是多少？哪些工作参数反映了这些？我可以通过-Xmx 1024m选项更改堆内存吗？当我以这种方式设置堆内存时，我的工作过去常常失败 - 可能对可以提供哪些值有一些限制？

非常感谢！

memory mapreduce apache-pig

2011-07-04T02:57:43.690

0 投票

1 回答

95 浏览

hadoop - 在 hadoop 上运行 pig 找不到结果

我在 hadoop 集群上运行了一个 pig 脚本，它成功通过但我找不到结果文件，它是这样说的：

我登录到 ocean-01，可以找到 /user/root 这样的文件夹，它藏在哪里？

hadoop apache-pig

2011-07-08T04:57:50.917

0 投票

3 回答

6853 浏览

jython - 使用 Pig 和 Python

如果这个问题措辞不当，我深表歉意：我正在进行一个大型机器学习项目，我不喜欢用 Java 编程。我喜欢用 Python 编写程序。我听说过关于猪的好消息。我想知道是否有人可以向我澄清 Pig 与 Python 结合用于数学相关工作的用途。另外，如果我要编写“流式 python 代码”，Jython 会出现吗？如果它出现在图片中会更有效吗？

谢谢

PS：出于几个原因，我不喜欢按原样使用 Mahout 的代码。我可能想使用他们的一些数据结构：知道这是否可行会很有用。

jython apache-pig

2011-07-08T09:21:10.787

0 投票

3 回答

4913 浏览

hadoop - 如何有效地使用 hive 对大数据进行排序（排序）？

我想有效地对大数据集进行排序（即使用自定义分区器，如下所述：MapReduce 排序算法如何工作？），但我想用 hive 来做。

但是，Hive 手册指出“order by”是由单个 reducer 执行的。这让我感到惊讶，因为 pig 确实实现了与文章类似的东西 - pig impl

我是否遗漏了什么，或者蜂巢根本不是这项工作的合适锤子？

hadoop mapreduce hive apache-pig

2011-07-12T11:32:27.567

0 投票

1 回答

499 浏览

hadoop - 使用 PIG 从 mysqldump 加载

我有一个格式的mysqldump：

如何使用 pig 加载这些数据？我努力了;

使用 , 作为分隔符可以正常工作，但我希望 ID 是一个 int，我无法弄清楚如何切断前导“INSERT INTO MY_TABLEVALUES（”和尾随“）;” 加载时。

另外我应该如何加载日期时间信息以便我可以查询它？

你能提供的任何帮助都会很棒。

hadoop apache-pig

2011-07-14T12:20:29.053

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-pig]

Reference