问题标签 [apache-pig]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-pig - 是否可以定义我们自己的比较器类以在猪中使用 order by?
我想使用我自己的比较器类来订购元组。如果我运行“B = ORDER A by $0,$1”之类的查询,那么应该根据我的比较器进行排序。请回复...谢谢
user-defined-functions - 除了 apache.org 教程之外,还有关于 Pig UDF 的有用教程吗?
我已经花了几个小时来适应,但我想找到一些其他的方法来练习。
apache-pig - Pig Script中的除数
我有上面的猪脚本代码,它计算两个计数。现在我想将 ch_count 除以 ca_count 并将其存储在一个文件中。我怎么做?
hadoop - 将 Hadoop Pig 输出作为 JSON 数据发布到 URL?
我有一个 Pig 作业,它分析日志文件并将摘要输出写入 S3。我不想将输出写入 S3,而是想将其转换为 JSON 有效负载并将其发布到 URL。
一些注意事项:
- 此作业在 Amazon Elastic MapReduce 上运行。
- 我可以使用 STREAM 通过外部命令传输数据,然后从那里加载。但是因为 Pig 从不向外部命令发送 EOF,这意味着我需要在每一行到达时发布它,并且我不能对它们进行批处理。显然,这会损害性能。
解决这个问题的最佳方法是什么?PiggyBank 或其他库中是否有我可以使用的东西?或者我应该写一个新的存储适配器?感谢您的意见!
function - 猪脚本功能问题
从下面的 Pig 代码中可以看出,我正在为 Attr1 和 Attr2 重复一组语句。有没有办法在函数中提取它?代码示例真的很有帮助。
memory - Apache PIG 问题
关于运行 pig 脚本/map-reduce 作业,我几乎没有问题。
我知道 pig在真正开始执行 map/reduce 作业之前会创建逻辑、物理和执行计划;我可以使用命令explain <alias_name>查看逻辑/物理计划;但是我如何查看执行计划(我想列出计划的不同 map/reduce 任务)?在 pig 执行过程中,我看到创建了许多作业(map/reduce 对)。想了解这些工作解决了什么问题。
是否有任何明确的指南可以用来理解所制定的计划,因为口水很难理解。
我可以通过更改输入文件块的数量来更改映射作业的数量。我是否也可以控制减少作业的数量?如何设置减速器的数量?
mapper/reducer 节点的默认堆内存大小是多少?哪些工作参数反映了这些?我可以通过-Xmx 1024m选项更改堆内存吗?当我以这种方式设置堆内存时,我的工作过去常常失败 - 可能对可以提供哪些值有一些限制?
非常感谢!
hadoop - 在 hadoop 上运行 pig 找不到结果
我在 hadoop 集群上运行了一个 pig 脚本,它成功通过但我找不到结果文件,它是这样说的:
我登录到 ocean-01,可以找到 /user/root 这样的文件夹,它藏在哪里?
jython - 使用 Pig 和 Python
如果这个问题措辞不当,我深表歉意:我正在进行一个大型机器学习项目,我不喜欢用 Java 编程。我喜欢用 Python 编写程序。我听说过关于猪的好消息。我想知道是否有人可以向我澄清 Pig 与 Python 结合用于数学相关工作的用途。另外,如果我要编写“流式 python 代码”,Jython 会出现吗?如果它出现在图片中会更有效吗?
谢谢
PS:出于几个原因,我不喜欢按原样使用 Mahout 的代码。我可能想使用他们的一些数据结构:知道这是否可行会很有用。
hadoop - 如何有效地使用 hive 对大数据进行排序(排序)?
我想有效地对大数据集进行排序(即使用自定义分区器,如下所述:MapReduce 排序算法如何工作?),但我想用 hive 来做。
但是,Hive 手册指出“order by”是由单个 reducer 执行的。这让我感到惊讶,因为 pig 确实实现了与文章类似的东西 - pig impl
我是否遗漏了什么,或者蜂巢根本不是这项工作的合适锤子?
hadoop - 使用 PIG 从 mysqldump 加载
我有一个格式的mysqldump:
如何使用 pig 加载这些数据?我努力了;
使用 , 作为分隔符可以正常工作,但我希望 ID 是一个 int,我无法弄清楚如何切断前导“INSERT INTO MY_TABLE
VALUES(”和尾随“);” 加载时。
另外我应该如何加载日期时间信息以便我可以查询它?
你能提供的任何帮助都会很棒。