问题标签 [apache-pig-grunt]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
658 浏览

apache-pig - 取消 Grunt 中尚未启动的命令

在 Pig Grunt 中,如果我在命令中出错(例如没有关闭 '),它会显示一个新提示,直到命令被修复:

在上述情况下,添加 '; 会解决它,但有时命令很长而且很复杂,而且很难找到罪魁祸首。

有没有办法在不完全退出 Pig 的情况下取消当前条目?即,不是 ctrl+C 还是 ctrl+D?

注意:我知道这与如何在 GRUNT shell 中取消命令类似,但在我的情况下,该命令尚未启动。

0 投票
1 回答
461 浏览

apache-pig - PIG 中的 SUM 函数

开始学习 Pig latin 脚本并坚持以下问题。我在同一个主题上经历了类似的问题,但没有任何运气!想要找到所有年龄字段的总和。

我尝试了几种选择,例如:

但是,低于例外。

感谢您的时间和帮助。

0 投票
0 回答
11 浏览

apache-pig-grunt - pig - 使用 Pig 将数据从多行转换为列

我在尝试将数据从长格式转换为宽格式时遇到了问题。

我的输入文件:

我希望将数据转换为

0 投票
0 回答
137 浏览

hadoop - 我们可以将猪关系分配给一组值吗?还有其他选择吗?

或者是否可以将数据类型转换为 Pig 关系(将数据类型映射到 Pig 关系)?

将静态值分配给变量的元组包并将此元组包加载为 Pig 关系。

基本上,我无法加载数据,因为我没有它作为文件。但需要在一些静态数据之上加入'1,2,3'。

0 投票
1 回答
670 浏览

csv - 如何在 PIG 中将 XLSX 文件转换为 CSV 文件?

我们如何使用 PIG SCRIPTcovert a xlsx进行归档。csv我发现有 CSVExcelStorage 来存储已经转换的 xlsx 到 csv 文件。

我认为在此之前我们需要将 xlsx 文件转换为 csv。

那么我们如何使用pig来做到这一点。

任何帮助。

0 投票
1 回答
146 浏览

hive - Apache Pig/Apache Hive 中给定日期范围的数据汇总

我有一个要求——我需要对作为输入提供的日期范围进行数据汇总。更具体地说:如果我的数据如下所示:

如果我想要 9 月份的摘要,那么我需要计算 4 个范围内的记录数,这些范围是:

  1. 当前日期,即 9 月的每一天。
  2. 周开始日期(根据当前日期的星期几)到当前日期,例如。如果当前日期为 2016 年 9 月 28 日,则周开始日期为 2016 年 9 月 25 日,记录计数在 2016 年 9 月 25 日到 2016 年 9 月 28 日之间。
  3. 月份开始日期到当前日期,即从 2016-09-01 到当前日期。
  4. Year Start Date to Current Date,即从 2016-01-01 到当前日期的记录数。

所以我的输出应该有一个记录,每个月的每一天都有 4 列(在这种情况下,月份是九月),比如

重要提示:我只能传递 2 个变量,即范围开始日期和范围结束日期。休息计算需要是动态的。

提前致谢

0 投票
1 回答
253 浏览

apache-pig - 从 ES 加载数据并使用 pig 在 HDFS 中存储为 avro

我有一些关于 ElasticSearch 的数据需要在 HDFS 上发送。我正在尝试使用 pig(这是我第一次使用它),但是在为我的数据定义正确的架构时遇到了一些问题。

首先,我尝试使用 选项加载 JSON 'es.output.json=true'org.elasticsearch.hadoop.pig.EsStorage我可以正确加载/转储数据,还可以使用STORE A INTO 'hdfs://path/to/store';. 稍后,在 HIVE 上定义一个外部表,我可以查询这些数据。这是运行良好的完整示例(我从代码中删除了所有 SSL 属性):

如何将我的数据作为 AVRO 存储到 HDFS?我想我需要使用AvroStorage,但我还应该定义一个加载数据的模式,或者 JSON 就足够了?我试图用LOAD...USING...AS命令和设置来定义一个模式,es.mapping.date.rich=false而不是es.output.json=true(我的数据非常复杂,有地图之类的东西),但它不起作用。我不确定问题出在语法上,还是出在方法本身上。很高兴能提示正确的方向。

更新

这是我尝试过的一个例子es.mapping.date.rich=false。我的问题是,如果一个字段为空,那么所有字段的顺序都会错误。

0 投票
0 回答
47 浏览

hadoop - 错误 1066:无法打开别名 input_lines 的迭代器

一旦我使用 {dump input_lines;},我就会收到错误 1066,即无法打开别名 input_lines 的迭代器。

AboutMe 是我试图读取的文件,它位于输入的 hdfs 目录中。我能够阅读它,我已经仔细检查了它。

Hadoop 版本hadoop-2.5.0-cdh5.3.2,Pig 版本“ pig-0.12.1 ”。我的 Ubuntu 版本是Ubuntu 14.04.5 LTS

我的.bashrc文件有

我已经尝试过两种方式,即

a) 从本地模式运行 pig grunt shell 并从本地加载输入文件

b) 从 hadoop 模式运行 pig grunt shell 并从 hdfs 目录加载输入文件

0 投票
2 回答
202 浏览

hadoop - 使用 Pig Latin 将元组插入内袋中 - Hadoop

我正在尝试使用 Pig Latin 创建以下关系格式:

用户 ID,日期,{(pid,fulldate, x,y),(pid,fulldate, x,y), ...}

关系描述:每个用户(userid)在每一天(day)都购买了多个产品(pid)

我正在将数据加载到:

B:{组:(userid:chararray,day:int),A:{(pid:chararray,day:int,fulldate:chararray,x:chararray,userid:chararray,y:chararray)}}

C: {userid: chararray,day: int,{(pid: chararray)}},{(fulldate: chararray)},{(x: chararray)},{(y: chararray)}}

描述 C 的结果没有给出我想要的格式!我做错了什么?

0 投票
0 回答
38 浏览

bigdata - 在“foreach”子句中使用时,Pig 空数据框正在生成数据

如果我使用了错误的标准猪名,请原谅我,因为我是新手。

我在 Pig(X 和 Y)中有 2 个数据框。两者都有变量:j1 和 j2。我正在做以下操作:

在这里,如果我们做 DUMP B,那么里面就没有数据。如果我们执行 DUMP C,则会出现数据 d1。但是当我执行 DUMP D 时,会出现相同的数据 d1,这是连线的,因为 B 没有任何数据点。

有人能说出为什么会这样吗?

注意:我尝试过:

  1. 存储 B 然后手动查看部分文件,但 B 中没有任何内容。

  2. 我还存储了 A,然后退出会话,然后在 grunt 和 Loaded A 中启动会话,然后执行最后两行代码(即 split 和 foreach)。当我这样做时,代码按预期工作,并且 DUMP D 没有显示任何输出数据(这是正确的)。

找到解决方案: 这实际上不是猪的问题。这是我用来读取数据并因此创建数据帧 X 和 Y 的 Jar 问题。基本上 Jar 无法正确读取 csv 文件,这在上面的连接操作中产生了问题。