问题标签 [apache-pig]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 为本地执行微调 PIG
我正在使用 PIG latin 进行日志处理,因为它在数据不足以担心设置整个 hadoop 集群的问题中的表现力。我在本地模式下运行 PIG,但我认为它没有使用所有可用的内核(目前为 16 个),监控 CPU 显示最多 200% 的 CPU 使用率。
是否有任何关于微调 PIG 以进行本地执行的教程或建议?我确信所有映射器都可以通过一些简单的调整来使用所有可用的内核。(在我的脚本中,我已经将 default_parallel 参数设置为 20)
最好的祝福。
amazon-web-services - 将 PIG 与 Hadoop 一起使用,我如何正则表达式匹配部分文本与未知数量的组?
我正在使用亚马逊的弹性地图减少。
我有看起来像这样的日志文件
如何编写一个 pig 表达式来挑选出 'foo' 表达式中的所有数字?
我更喜欢看起来像这样的元组:
我尝试了以下方法:
但这只会产生每行中的第一个匹配项:
database - 一种将结果从 Pig 导出到数据库的方法
有没有办法将结果从 Pig 直接导出到 mysql 之类的数据库?
hadoop - Pig 版本不匹配 (Hadoop)
有没有人遇到过这个问题?这是错误日志:
协议 org.apache.hadoop.mapred.JobSubmissionProtocol 版本不匹配。(客户端 = 20,服务器 = 21)
我用的是 pig 0.8.0,我的 hadoop 版本是 0.20.10。
如果有人可以帮助我,我将不胜感激。
hadoop - 如何使用猪拉丁语“更新”列
想象一下,我可以使用下表:
我现在想转换它,将z
其设置为NULL
where x > y
,并将结果数据集存储为B
.
而且我想这样做而不必明确提及所有其他列,因为这将成为维护的噩梦。
有简单的解决方案吗?
apache-pig - 我可以在 Apache Pig Latin 中将命令拆分为多行吗?
我有一些很长的行作为 Apache Pig(拉丁)表达式。有没有办法将这些拆分成多行?
我尝试了尾随反斜杠无济于事,只要我按下enter(不完整的)命令就会执行......
apache-pig - 我可以使用 Pig Latin 中的嵌套 FOREACH 语句生成嵌套包吗?
假设我有一组餐厅评论数据:
我想按用户和城市的平均评论生成一个列表。即输出:
我可以编写一个 Pig 脚本如下:
但是我很好奇我是否可以先将更高级别的组(用户)分组,然后再将下一个级别(城市)分组:即
我得到:
有没有人成功地尝试过这个?是否根本不可能在 FOREACH 中进行 GROUP?
我的目标是做类似的事情:
apache-pig - 如何在 PIG 脚本中从数据包中读取数据
我有一个数据包,格式如下
{([ChannelName#{ (bigXML,[])} ])}
- DataBag 仅包含一个元组。
- 元组仅包含 Map 项。
- Map 是一种类型,它是通道名称和值之间的映射。
- 这里的 value 是 DataBag 类型,它只包含一个元组。
- 元组由两项组成,一项是 charrarray(非常大的字符串),另一项是地图
我有一个发射上述袋子的 UDF。
现在我需要通过将 DataBag 中唯一的元组传递给 Map 中的给定 Channel 来调用另一个 UDF。
假设没有数据包和元组,因为
([ChannelName#{ (bigXML,[])} ])
我可以使用$0.$0#'StdOutChannel'
Now 和包内的元组
访问数据{([ChannelName#{ (bigXML,[])} ])}
如果我这样做$0.$0.$0#'StdOutChannel'
(预置 $0),我会收到以下错误
ERROR 1052: Cannot cast bag with schema bag({bytearray}) to map
如何访问数据包中的数据?
java - 如果我有一个需要文件路径的构造函数,如果将它打包到 jar 中,我怎么能“伪造”它?
这个问题的背景是我正在尝试在我编写的猪脚本中使用 maxmind java api......但是,我认为不需要了解任何一个来回答这个问题。
maxmind API 有一个构造函数,它需要一个名为 GeoIP.dat 的文件的路径,该文件是一个逗号分隔的文件,其中包含所需的信息。
我有一个包含 API 的 jar 文件,以及一个实例化该类并使用它的包装类。我的想法是将GeoIP.dat文件打包到jar中,然后在jar文件中作为资源访问。问题是我不知道如何构造构造函数可以使用的路径。
查看 API,这是他们加载文件的方式:
我只粘贴它,因为我不反对编辑 API 本身以使其工作(如有必要),但不知道如何复制我的功能。不过,理想情况下,我希望将其放入文件表单中,否则编辑 API 将是一件很麻烦的事。
这可能吗?
apache-pig - 如何在 Apache Pig 中使用 PigStorage 存储 gzip 文件?
Apache Pig v0.7 可以读取 gzip 压缩文件,我无需付出额外的努力,例如:
我可以处理该数据并将其输出到磁盘,好吧:
但输出文件未压缩:
有没有办法告诉STORE
命令以 gzip 格式输出内容?请注意,理想情况下,我想要一个适用于 Pig 0.6 的答案,因为我希望使用 Amazon Elastic MapReduce;但如果有任何版本的 Pig 的解决方案,我想听听。