问题标签 [apache-pig]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-pig - 将 Hive 与 Pig 一起使用
我的 hive 查询有多个外部连接,执行时间很长。我想知道将其分解为多个较小的查询并使用 pig 进行转换是否有意义。
有没有办法可以在猪脚本中查询配置单元表或读取配置单元表数据?
谢谢
php - Pig 的 PHP 流
我有一个 Pig 脚本——当前在本地模式下运行——它处理一个包含类别列表的巨大文件:
我需要通过调用存储过程将这些中的每一个插入到现有数据库中。因为我是 Pig 新手,而且 UDF 界面有点令人生畏,所以我试图通过 PHP 脚本流式传输文件的内容来完成一些工作。
不过,我发现 PHP 脚本只能看到我通过它的类别行的一半。更准确地说,我看到了返回的记录ceil( pig_categories/2 )
。通过 PHP 脚本流式传输后,限制为 15 将产生 8 个条目——最后一个将为空。
关于我所缺少的任何想法。我已经翻阅 Pig 参考手册一段时间了,似乎没有太多与通过 PHP 脚本流式传输相关的信息。我也尝试过 IRC 上的#hadoop 频道,但无济于事。任何指导将不胜感激。
谢谢。
更新
很明显,这与 EOL 相关。如果我将 PHP 脚本从 using 更改fgets()
为stream_get_line()
,那么我会返回 10 个项目,但应该首先出现的记录会被跳过,并且会显示一个尾随的空记录。
在该结果集中,应该有 的第一项(Arts)
。接近了,但仍有一些差距要缩小。
syntax - 如何在 Apache Pig 中使用地图数据类型?
我想使用 Apache Pig 构建一个大键 -> 值映射,在映射中查找内容,然后遍历键。然而,做这些事情似乎没有语法;我检查了手册、wiki、示例代码、大象书、谷歌,甚至尝试解析解析器源。每个示例都从文件中加载地图文字......然后从不使用它们。如何使用 Pig 的地图?
首先,似乎没有办法将 2 列 CSV 文件直接加载到地图中。如果我有一个简单的map.csv
:
我尝试将其加载为地图:
我得到三个空元组:
所以我尝试加载元组然后生成地图:
语法的许多变体也失败了(例如,generate [$0#$1]
)。
好的,所以我将我的地图转换为 Pig 的地图文字格式map.pig
:
并加载它:
现在让我们加载一些键并尝试查找:
Hrm,好吧,可能因为涉及到两个关系,我们需要一个join:
失败。如何引用地图的键(或值)?映射模式语法似乎不允许您命名键和值(邮件列表说无法分配类型)。
最后,我只想能够在我的地图中找到他们所有的键:
猪的地图类型是半生不熟的吗?我错过了什么?
amazon-web-services - 使用 Elastic MapReduce (PIG) 处理 CloudFront 日志
我想处理 Amazon CloudFront 使用 Amazon Elastic MapReduce 创建的访问日志。
我只需要一些关于从云端加载不同文件的次数的简单统计信息,所以我认为我应该为此编写一个简单的 PIG 脚本。
我遇到的第一个问题是云端写入 gzip 压缩的日志,据我所知,我无法在猪中读取 .gz?
关于我应该如何做到这一点的任何建议?我对弹性 mapreduce 非常陌生,因此欢迎任何有关如何构建此类工作的提示。
ubuntu - Apache Pig 和 Hadoop Connection 中运行教程脚本的环境设置是什么?
我试图在 Ubuntu 中运行 pig 教程脚本两天,但是我无法让 pig 连接到 hadoop 文件系统。它仍然在说:“连接到 hadoop 文件系统:file:///”
其实hadoop和pig都可以用,我可以用,pig安装下的pig脚本也可以连接hadoop。"Connecting to hadoop file system at: hdfs://localhost:54310" 我的hadoop目录在/home/hadoop/Cluster下,pig安装在/usr/share/pig下,pig教程是home/hadoop/pig和hadoop安装是 /home/someuser/hadoop 。
我已经尝试了网络中的几乎所有解决方案,但我仍然需要一些帮助。任何想法将不胜感激。
提前致谢。
hadoop - pig hadoop needed for I want to do?
I have a question for you, well a clarification...
I developed a program that uses hadoop map reduce wich gets just a column from a dataset (csv file) and process this data with some functions, so this program is finished, but the real question is Is a good idea to develop this program in Pig? note that in the process of the file I dont use FILTERS COUNTS or any built in function of Pig...
Am I right if I say that passing this hadoop map reduce program to Pig has no sense? because all my functions will need to be rewrited as a Pig User Defined Function UDF...
hadoop - Hadoop Pig:传递命令行参数
有没有办法做到这一点?例如,传递要处理的文件的名称等?
hadoop - Hadoop MapReduce - Pig/Cassandra - 无法创建输入拆分
我正在尝试使用 Pig 和 Cassandra 运行 MapReduce 作业,但总是收到错误消息: 错误 2118:无法为以下内容创建输入拆分:cassandra://constellation/logs
[已解决] 我错过了一些环境变量设置:
PIG_RPC_PORT、PIG_INITIAL_ADDRESS、PIG_PARTITIONER
任何有想法的人-> 已解决我错过了一些环境变量来设置它们。
环境:Ubuntu Server 10.4
版本:hadoop:0.20 pig:0.7 cassandra:0.7.0 beta3
csv - 使用 PigLatin 将“3”转换为 3
我读入了一个 csv 文件,其中包含带有如下数字的字段:“3”。我可以使用 PigLatin 将此字段从“3”转换为 3 吗?我需要它来使用 SUM() - 函数。
谢谢你的帮助!
java - 从 Pig 获取字段模式的名称
我正在为 Pig 开发 JsonStorage。一切正常,但至少我需要从 pig 模式中获取字段的名称(即 crdate、name、position)。
实际上,我通过 StoreFunc 扩展了我的类,它不提供获取字段名称的功能。
有谁能够帮我 :)