问题标签 [apache-pig]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-pig - 使用 PIG 添加值
我有一份男性和女性的姓名和人数列表。看起来像这样
亚伯 32898 82
卡兰 1087 868
Pig中计算男性总数和女性总数的最佳方法是什么?
apache-pig - Pig:更改输出文件 NAME 的格式
我正在运行一个弹性 mapreduce 管道,该管道使用多个猪脚本的输出。本质上,猪脚本的输出存储在 S3 上的某个位置,由于数据量很大,因此创建的输出文件命名为 part-xxxxx。
现在我的问题是我的管道中的一个步骤是从两个不同的位置复制内容并将它们放在一起,然后对整个集合进行处理。现在,由于两个位置的文件名称相似(part-00000 到 part-00342),我的文件在复制过程中被覆盖。
默认情况下,pig 在给定位置使用这种文件名格式生成我的输出文件。最初,我曾经将 pig 输出文件下载到我的磁盘,编写一个 python 程序来重命名它们,然后将它们上传回 S3。由于数据量太大,我现在不能这样做。
我不拥有实际执行此复制的管道步骤。我所能控制的(也许)是被复制的文件的名称)。所以我需要知道是否有办法为 pig 创建的零件文件的名称附加前缀。
谢谢
hadoop - 使用 Hadoop Pig 从文本文件中加载数据,每条记录位于多行?
我有以下格式的数据文件:
用 Hadoop/pig/whatever 读取这个文件进行分析的最佳方法是什么?
mapreduce - 阿帕奇猪命令
只是想知道以下命令是什么意思?很难谷歌与猪相关的主题:
我在 map/reduce 模式下运行 pig 脚本,它失败了,通过添加那个标志(-D),它工作,但仍然有一些问题。那么这到底是什么意思呢?谢谢。
hadoop - 如何从 PIG.. 调用 perl 脚本?
任何人都知道如何从猪脚本中调用 perl 脚本。我也想知道如何从 perl 中调用猪。
请帮助我。
谢谢, 兰吉斯
hadoop - 无法使用单节点 hadoop 服务器运行 pig
我已经用 ubuntu 设置了一个虚拟机。它将 hadoop 作为单个节点运行。后来我在上面安装了apache pig。apache pig 在本地模式下运行良好,但它总是舞会ERROR 2999: Unexpected internal error. Failed to create DataStorage
我错过了一些非常明显的东西。有人可以帮我运行吗?
更多细节: 1. 我假设 hadoop 运行良好,因为我可以在 python 中运行 MapReduce 作业。2. pig -x local 运行如我所料。3.当我只是输入pig
它给我以下错误
hadoop - 有哪些方法可以顺序运行多个 Pig 脚本?
我需要在 Hadoop 中按顺序运行一些 Pig 脚本。它们必须单独运行。有什么建议么?
更新
只是一个快速更新,我们正在努力从一个 Java 类运行 Pig 脚本。Oozie 是评论中提到的一种可能性(尽管对于我们的需求来说太重了)。我还听说可以将 Pig 脚本编排为 Cascading ( http://www.cascading.org/ ) 中更大工作流程的一部分,并对其进行了一些研究。
python - Pig Hadoop Stream 帮助
我在运行猪流媒体时遇到问题。当我启动一个交互式猪实例(仅供参考,我通过 SSH/Putty 在交互式猪 AWS EMR 实例的主节点上执行此操作)时,只有一台机器我的猪流工作完美(它也适用于我的 windows cloudera VM 映像)。但是,当我切换到使用多台计算机时,它会停止工作并给出各种错误。
注意:
- 我能够在多计算机实例上运行没有任何流命令的 Pig 脚本,没有问题。
- 我所有的猪工作都是在猪 MapReduce 模式下完成的,而不是 –x 本地模式。
- 我的 python 脚本 (stream1.py) 在顶部有这个 #!/usr/bin/env python
下面是我迄今为止尝试过的选项的小样本(以下所有命令都是在主/主节点上的 grunt shell 中完成的,我通过 ssh/putty 访问它):
这就是我将 python 文件放到母节点上的方式,以便可以使用它:
这些是我的各种流尝试:
apache-pig - PIG Error 1066 after iterating through a joined set.
Trying to join a one set which has number of days in the month with a data set on the year month key. After I join the and try to do a FOREACH over the set I get an ERROR: 1066 ... Backend error : Scalar has more than one row in the output.
Here is an abbreviated set with the same problem:
Then in grunt:
However if I store it and reload it to shed the "join" schema it works:
Is there a way to iterate (FOREACH) over the joined set without storing and reloading?
hadoop - 使用 Apache Pig Latin 对数据进行条件求和
我正在尝试使用 Apache Pig Latin 进行一些日志处理,我想知道是否有更简单的方法可以做到这一点:
(定义了日志,它基本上是读取管道分隔的日志文件并分配字段)
我在这里要做的是计算字段 cacheStatus 包含“HIT”的实例数,并计算其他数据,例如 OrigMB、CompressionAvg、NumLogs 等。当前的代码有效,但似乎有巨大的性能高架。Pig Latin 有没有办法按照这个思路做一些事情(在 MSSQL 中)?
(基本上,我不想多次处理日志,我宁愿一次完成)
抱歉,如果我的问题措辞令人困惑,我对 Pig Latin 还是很陌生。