问题标签 [apache-pig-grunt]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-pig - 取消 Grunt 中尚未启动的命令
在 Pig Grunt 中,如果我在命令中出错(例如没有关闭 '),它会显示一个新提示,直到命令被修复:
在上述情况下,添加 '; 会解决它,但有时命令很长而且很复杂,而且很难找到罪魁祸首。
有没有办法在不完全退出 Pig 的情况下取消当前条目?即,不是 ctrl+C 还是 ctrl+D?
注意:我知道这与如何在 GRUNT shell 中取消命令类似,但在我的情况下,该命令尚未启动。
apache-pig - PIG 中的 SUM 函数
开始学习 Pig latin 脚本并坚持以下问题。我在同一个主题上经历了类似的问题,但没有任何运气!想要找到所有年龄字段的总和。
我尝试了几种选择,例如:
但是,低于例外。
感谢您的时间和帮助。
apache-pig-grunt - pig - 使用 Pig 将数据从多行转换为列
我在尝试将数据从长格式转换为宽格式时遇到了问题。
我的输入文件:
我希望将数据转换为
hadoop - 我们可以将猪关系分配给一组值吗?还有其他选择吗?
或者是否可以将数据类型转换为 Pig 关系(将数据类型映射到 Pig 关系)?
将静态值分配给变量的元组包并将此元组包加载为 Pig 关系。
基本上,我无法加载数据,因为我没有它作为文件。但需要在一些静态数据之上加入'1,2,3'。
csv - 如何在 PIG 中将 XLSX 文件转换为 CSV 文件?
我们如何使用 PIG SCRIPTcovert a xlsx
进行归档。csv
我发现有 CSVExcelStorage 来存储已经转换的 xlsx 到 csv 文件。
我认为在此之前我们需要将 xlsx 文件转换为 csv。
那么我们如何使用pig来做到这一点。
任何帮助。
hive - Apache Pig/Apache Hive 中给定日期范围的数据汇总
我有一个要求——我需要对作为输入提供的日期范围进行数据汇总。更具体地说:如果我的数据如下所示:
如果我想要 9 月份的摘要,那么我需要计算 4 个范围内的记录数,这些范围是:
- 当前日期,即 9 月的每一天。
- 周开始日期(根据当前日期的星期几)到当前日期,例如。如果当前日期为 2016 年 9 月 28 日,则周开始日期为 2016 年 9 月 25 日,记录计数在 2016 年 9 月 25 日到 2016 年 9 月 28 日之间。
- 月份开始日期到当前日期,即从 2016-09-01 到当前日期。
- Year Start Date to Current Date,即从 2016-01-01 到当前日期的记录数。
所以我的输出应该有一个记录,每个月的每一天都有 4 列(在这种情况下,月份是九月),比如
重要提示:我只能传递 2 个变量,即范围开始日期和范围结束日期。休息计算需要是动态的。
提前致谢
apache-pig - 从 ES 加载数据并使用 pig 在 HDFS 中存储为 avro
我有一些关于 ElasticSearch 的数据需要在 HDFS 上发送。我正在尝试使用 pig(这是我第一次使用它),但是在为我的数据定义正确的架构时遇到了一些问题。
首先,我尝试使用 选项加载 JSON 'es.output.json=true'
,org.elasticsearch.hadoop.pig.EsStorage
我可以正确加载/转储数据,还可以使用STORE A INTO 'hdfs://path/to/store';
. 稍后,在 HIVE 上定义一个外部表,我可以查询这些数据。这是运行良好的完整示例(我从代码中删除了所有 SSL 属性):
如何将我的数据作为 AVRO 存储到 HDFS?我想我需要使用AvroStorage
,但我还应该定义一个加载数据的模式,或者 JSON 就足够了?我试图用LOAD...USING...AS
命令和设置来定义一个模式,es.mapping.date.rich=false
而不是es.output.json=true
(我的数据非常复杂,有地图之类的东西),但它不起作用。我不确定问题出在语法上,还是出在方法本身上。很高兴能提示正确的方向。
更新
这是我尝试过的一个例子es.mapping.date.rich=false
。我的问题是,如果一个字段为空,那么所有字段的顺序都会错误。
hadoop - 错误 1066:无法打开别名 input_lines 的迭代器
一旦我使用 {dump input_lines;},我就会收到错误 1066,即无法打开别名 input_lines 的迭代器。
AboutMe 是我试图读取的文件,它位于输入的 hdfs 目录中。我能够阅读它,我已经仔细检查了它。
Hadoop 版本hadoop-2.5.0-cdh5.3.2,Pig 版本“ pig-0.12.1 ”。我的 Ubuntu 版本是Ubuntu 14.04.5 LTS
我的.bashrc文件有
我已经尝试过两种方式,即
a) 从本地模式运行 pig grunt shell 并从本地加载输入文件
b) 从 hadoop 模式运行 pig grunt shell 并从 hdfs 目录加载输入文件
hadoop - 使用 Pig Latin 将元组插入内袋中 - Hadoop
我正在尝试使用 Pig Latin 创建以下关系格式:
用户 ID,日期,{(pid,fulldate, x,y),(pid,fulldate, x,y), ...}
关系描述:每个用户(userid)在每一天(day)都购买了多个产品(pid)
我正在将数据加载到:
B:{组:(userid:chararray,day:int),A:{(pid:chararray,day:int,fulldate:chararray,x:chararray,userid:chararray,y:chararray)}}
C: {userid: chararray,day: int,{(pid: chararray)}},{(fulldate: chararray)},{(x: chararray)},{(y: chararray)}}
描述 C 的结果没有给出我想要的格式!我做错了什么?
bigdata - 在“foreach”子句中使用时,Pig 空数据框正在生成数据
如果我使用了错误的标准猪名,请原谅我,因为我是新手。
我在 Pig(X 和 Y)中有 2 个数据框。两者都有变量:j1 和 j2。我正在做以下操作:
在这里,如果我们做 DUMP B,那么里面就没有数据。如果我们执行 DUMP C,则会出现数据 d1。但是当我执行 DUMP D 时,会出现相同的数据 d1,这是连线的,因为 B 没有任何数据点。
有人能说出为什么会这样吗?
注意:我尝试过:
存储 B 然后手动查看部分文件,但 B 中没有任何内容。
我还存储了 A,然后退出会话,然后在 grunt 和 Loaded A 中启动会话,然后执行最后两行代码(即 split 和 foreach)。当我这样做时,代码按预期工作,并且 DUMP D 没有显示任何输出数据(这是正确的)。
找到解决方案: 这实际上不是猪的问题。这是我用来读取数据并因此创建数据帧 X 和 Y 的 Jar 问题。基本上 Jar 无法正确读取 csv 文件,这在上面的连接操作中产生了问题。