“apache-pig-grunt”的相关标签问题

0 投票

1 回答

658 浏览

apache-pig - 取消 Grunt 中尚未启动的命令

在 Pig Grunt 中，如果我在命令中出错（例如没有关闭 '），它会显示一个新提示，直到命令被修复：

在上述情况下，添加 '; 会解决它，但有时命令很长而且很复杂，而且很难找到罪魁祸首。

有没有办法在不完全退出 Pig 的情况下取消当前条目？即，不是 ctrl+C 还是 ctrl+D？

注意：我知道这与如何在 GRUNT shell 中取消命令类似，但在我的情况下，该命令尚未启动。

apache-pig apache-pig-grunt

2013-08-09T15:48:05.160

0 投票

1 回答

461 浏览

apache-pig - PIG 中的 SUM 函数

开始学习 Pig latin 脚本并坚持以下问题。我在同一个主题上经历了类似的问题，但没有任何运气！想要找到所有年龄字段的总和。

我尝试了几种选择，例如：

但是，低于例外。

感谢您的时间和帮助。

apache-pig apache-pig-grunt

2016-06-24T18:05:28.263

0 投票

0 回答

11 浏览

apache-pig-grunt - pig - 使用 Pig 将数据从多行转换为列

我在尝试将数据从长格式转换为宽格式时遇到了问题。

我的输入文件：

我希望将数据转换为

apache-pig-grunt

2016-07-14T03:37:25.720

0 投票

0 回答

137 浏览

hadoop - 我们可以将猪关系分配给一组值吗？还有其他选择吗？

或者是否可以将数据类型转换为 Pig 关系（将数据类型映射到 Pig 关系）？

将静态值分配给变量的元组包并将此元组包加载为 Pig 关系。

基本上，我无法加载数据，因为我没有它作为文件。但需要在一些静态数据之上加入'1,2,3'。

hadoop apache-pig apache-pig-grunt

2016-09-07T02:26:06.333

0 投票

1 回答

670 浏览

csv - 如何在 PIG 中将 XLSX 文件转换为 CSV 文件？

我们如何使用 PIG SCRIPTcovert a xlsx进行归档。csv我发现有 CSVExcelStorage 来存储已经转换的 xlsx 到 csv 文件。

我认为在此之前我们需要将 xlsx 文件转换为 csv。

那么我们如何使用pig来做到这一点。

任何帮助。

csv hadoop apache-pig xlsx apache-pig-grunt

2016-09-09T08:46:13.830

0 投票

1 回答

146 浏览

hive - Apache Pig/Apache Hive 中给定日期范围的数据汇总

我有一个要求——我需要对作为输入提供的日期范围进行数据汇总。更具体地说：如果我的数据如下所示：

如果我想要 9 月份的摘要，那么我需要计算 4 个范围内的记录数，这些范围是：

当前日期，即 9 月的每一天。
周开始日期（根据当前日期的星期几）到当前日期，例如。如果当前日期为 2016 年 9 月 28 日，则周开始日期为 2016 年 9 月 25 日，记录计数在 2016 年 9 月 25 日到 2016 年 9 月 28 日之间。
月份开始日期到当前日期，即从 2016-09-01 到当前日期。
Year Start Date to Current Date，即从 2016-01-01 到当前日期的记录数。

所以我的输出应该有一个记录，每个月的每一天都有 4 列（在这种情况下，月份是九月），比如

重要提示：我只能传递 2 个变量，即范围开始日期和范围结束日期。休息计算需要是动态的。

提前致谢

hive apache-pig hiveql apache-pig-grunt

2016-10-29T05:25:30.940

0 投票

1 回答

253 浏览

apache-pig - 从 ES 加载数据并使用 pig 在 HDFS 中存储为 avro

我有一些关于 ElasticSearch 的数据需要在 HDFS 上发送。我正在尝试使用 pig（这是我第一次使用它），但是在为我的数据定义正确的架构时遇到了一些问题。

首先，我尝试使用选项加载 JSON 'es.output.json=true'，org.elasticsearch.hadoop.pig.EsStorage我可以正确加载/转储数据，还可以使用STORE A INTO 'hdfs://path/to/store';. 稍后，在 HIVE 上定义一个外部表，我可以查询这些数据。这是运行良好的完整示例（我从代码中删除了所有 SSL 属性）：

如何将我的数据作为 AVRO 存储到 HDFS？我想我需要使用AvroStorage，但我还应该定义一个加载数据的模式，或者 JSON 就足够了？我试图用LOAD...USING...AS命令和设置来定义一个模式，es.mapping.date.rich=false而不是es.output.json=true（我的数据非常复杂，有地图之类的东西），但它不起作用。我不确定问题出在语法上，还是出在方法本身上。很高兴能提示正确的方向。

更新

这是我尝试过的一个例子es.mapping.date.rich=false。我的问题是，如果一个字段为空，那么所有字段的顺序都会错误。

apache-pig apache-pig-grunt

2017-04-27T09:45:34.333

0 投票

0 回答

47 浏览

hadoop - 错误 1066：无法打开别名 input_lines 的迭代器

一旦我使用 {dump input_lines;}，我就会收到错误 1066，即无法打开别名 input_lines 的迭代器。

AboutMe 是我试图读取的文件，它位于输入的 hdfs 目录中。我能够阅读它，我已经仔细检查了它。

Hadoop 版本hadoop-2.5.0-cdh5.3.2，Pig 版本“ pig-0.12.1 ”。我的 Ubuntu 版本是Ubuntu 14.04.5 LTS

我的.bashrc文件有

我已经尝试过两种方式，即

a) 从本地模式运行 pig grunt shell 并从本地加载输入文件

b) 从 hadoop 模式运行 pig grunt shell 并从 hdfs 目录加载输入文件

hadoop apache-pig hadoop2 apache-pig-grunt piglet

2017-08-26T08:12:03.873

0 投票

2 回答

202 浏览

hadoop - 使用 Pig Latin 将元组插入内袋中 - Hadoop

我正在尝试使用 Pig Latin 创建以下关系格式：

用户 ID，日期，{(pid,fulldate, x,y),(pid,fulldate, x,y), ...}

关系描述：每个用户（userid）在每一天（day）都购买了多个产品（pid）

我正在将数据加载到：

B：{组：（userid：chararray，day：int），A：{（pid：chararray，day：int，fulldate：chararray，x：chararray，userid：chararray，y：chararray）}}

C: {userid: chararray,day: int,{(pid: chararray)}},{(fulldate: chararray)},{(x: chararray)},{(y: chararray)}}

描述 C 的结果没有给出我想要的格式！我做错了什么？

hadoop apache-pig apache-pig-grunt

2018-04-23T15:29:45.163

0 投票

0 回答

38 浏览

bigdata - 在“foreach”子句中使用时，Pig 空数据框正在生成数据

如果我使用了错误的标准猪名，请原谅我，因为我是新手。

我在 Pig（X 和 Y）中有 2 个数据框。两者都有变量：j1 和 j2。我正在做以下操作：

在这里，如果我们做 DUMP B，那么里面就没有数据。如果我们执行 DUMP C，则会出现数据 d1。但是当我执行 DUMP D 时，会出现相同的数据 d1，这是连线的，因为 B 没有任何数据点。

有人能说出为什么会这样吗？

注意：我尝试过：

存储 B 然后手动查看部分文件，但 B 中没有任何内容。
我还存储了 A，然后退出会话，然后在 grunt 和 Loaded A 中启动会话，然后执行最后两行代码（即 split 和 foreach）。当我这样做时，代码按预期工作，并且 DUMP D 没有显示任何输出数据（这是正确的）。

找到解决方案： 这实际上不是猪的问题。这是我用来读取数据并因此创建数据帧 X 和 Y 的 Jar 问题。基本上 Jar 无法正确读取 csv 文件，这在上面的连接操作中产生了问题。

bigdata apache-pig apache-pig-grunt

2018-11-09T05:32:09.517

问题标签 [apache-pig-grunt]

Reference