问题标签 [piglet]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4 问题

0 投票

1 回答

207 浏览

vb.net - 使用小猪流利配置解析拉丁植物名称

我有以下测试。和类。现在我只需要找到如何编写规则，它看起来很简单;-)。但我哪儿也去不了快。正如标签所说，我想为此使用和学习小猪。

这是我到目前为止所尝试的。

更新

多亏了 Randompunter，我通过了前两个测试。

vb.net piglet

2012-10-23T09:18:51.550

0 投票

1 回答

1201 浏览

hadoop - 执行联接时 Hive 与 Pig

我有一些脚本可以处理我的网站日志。我已将此数据加载到 Hive 中的多个表中。我每天运行这些脚本来分析流量。

最近我发现我在这些脚本中编写的配置单元查询花费了太多时间。以前，生成报告需要大约 10-15 分钟，但现在需要数小时才能完成。

我对数据进行了分析，数据集增加了大约 5-10%。

我的一位朋友建议我，在加入多个 hive 表时，Hive 并不好，我应该将脚本切换到 Pig。与 Pig 相比，Hive 不擅长加入表格吗？

2013-01-10T14:49:09.520

0 投票

2 回答

11345 浏览

hadoop - 在 Pig 中合并两个数据集

我有一个猪脚本，我在其中加载一个数据集，将其放入两个单独的数据集，然后执行一些计算，最后向其中添加另一个计算字段。现在我想加入这两个数据集。

所以本质上，在计算之后，这里是两者的模式：

现在，在我将其转储回 HDFS 之前，我想将这两个数据集合并回来。类似于UNION ALLSQL 中的东西。我怎样才能做到这一点？

hadoop apache-pig piglet

2013-01-11T12:10:11.773

0 投票

0 回答

47 浏览

hadoop - 错误 1066：无法打开别名 input_lines 的迭代器

一旦我使用 {dump input_lines;}，我就会收到错误 1066，即无法打开别名 input_lines 的迭代器。

AboutMe 是我试图读取的文件，它位于输入的 hdfs 目录中。我能够阅读它，我已经仔细检查了它。

Hadoop 版本hadoop-2.5.0-cdh5.3.2，Pig 版本“ pig-0.12.1 ”。我的 Ubuntu 版本是Ubuntu 14.04.5 LTS

我的.bashrc文件有

我已经尝试过两种方式，即

a) 从本地模式运行 pig grunt shell 并从本地加载输入文件

b) 从 hadoop 模式运行 pig grunt shell 并从 hdfs 目录加载输入文件

hadoop apache-pig hadoop2 apache-pig-grunt piglet

2017-08-26T08:12:03.873

1 2 3 4 5 6 7 8 9 10

问题标签 [piglet]

vb.net - 使用小猪流利配置解析拉丁植物名称

hadoop - 执行联接时 Hive 与 Pig

hadoop - 在 Pig 中合并两个数据集

hadoop - 错误 1066：无法打开别名 input_lines 的迭代器

Reference