“cascading”的相关标签问题

0 投票

1 回答

4775 浏览

hadoop - 级联 HBase Tap

我正在尝试编写必须连接到 HBase 的烫伤作业，但我在使用 HBase 水龙头时遇到了麻烦。我已经尝试使用Twitter Maple提供的水龙头，遵循这个示例项目，但我使用的 Hadoop/HBase 版本与 Twitter 用作客户端的版本之间似乎存在一些不兼容。

我的集群使用 HBase 0.92 和 Hadoop 2.0.0-cdh4.1.3运行Cloudera CDH4。每当我启动连接到 HBase 的 Scalding 作业时，都会出现异常

Twitter Maple 使用的 HBase 客户端似乎期望NetUtils在我的集群上部署的 Hadoop 版本上不存在某些方法。

我如何追踪到底是什么不匹配——HBase 客户端期望什么版本等等？一般来说，有没有办法缓解这些问题？

在我看来，客户端库通常是用硬编码版本的 Hadoop 依赖项编译的，很难使它们与部署的实际版本相匹配。

2013-03-12T14:08:39.533

0 投票

3 回答

492 浏览

hadoop - 在哪里可以找到安装和运行 cascading.jruby 的教程？

我已经安装了 Hadoop 并且测试正常，但是找不到任何关于 n00b 的说明

如何设置级联和 cascading.jruby。在哪里放置级联罐子以及如何配置 jading 以正确构建 ruby 程序集？

有人使用詹金斯自动构建它吗？

编辑：更多细节我正在尝试从https://github.com/etsy/cascading.jruby构建示例字数统计作业

我已经安装

hadoop，并成功运行测试。
安装了jruby
宝石安装级联.jruby
玉 - https://github.com/etsy/jading
安装蚂蚁
创建了 wordcount 样本 wc.rb
运行jade将wc.rb编译成jar

玉wc.rb
我收到以下编译错误

构建文件：build.xml 不存在！构建失败 RuntimeError: Ant 检索失败 (root) at /usr/bin/hjade:89

查看翡翠代码是有道理的，但是示例用法中没有涉及到这一点？我在这里想念什么？

hadoop jruby cascading

2013-03-16T13:08:47.043

0 投票

2 回答

624 浏览

cascading - 级联（缓冲区）实现

我需要在级联 hadoop 中创建一个缓冲区。

假设我有字段：

member_id,amountpaid,diadnosis_id,diagnosis_description,superGrouper_id,superGrouper_description,grouperId,grouperDescription

我需要

member_id对来自和的字段进行分组superGrouper_id
使用每个管道将这些信息发送到缓冲区
缓冲区输出应该是：member_id，最高支付排序superGrouper，最高支付排序grouperId，最高支付diagnosis_id，以及它们的描述......

请帮我创建一个缓冲区。提前致谢

cascading

2013-03-22T07:55:25.470

0 投票

1 回答

332 浏览

hadoop - 解释级联点图

有人可以解释如何阅读这些图表吗？我了解从头到尾的流程，但我特别想知道如何读取椭圆（管道/水龙头）之间的字段（括号）转换。

例如，使用图像中每个管道之后的字段，我能够解释这些的方式是第一个字段集，即 [{2}:'token', 'count'] 是进入下一个管道的内容/点击，但是第二个字段集[{1}：'token']的意义是什么？

这是进入上一个管道的字段集吗？第二个括号是否具有编程意义，即我们是否能够使用特定的级联代码在该管道中访问它？（在第二个字段集大于第一个的情况下）

_{（来源：cascading.org）}

hadoop cascading

2013-03-22T13:53:36.050

0 投票

2 回答

876 浏览

hadoop - 如何在 Scalding 中一次平均几列？

作为使用 Scalding 进行某些计算的最后一步，我想计算管道中列的多个平均值。但是下面的代码不起作用

sum, max, average有没有什么方法可以在不进行多次传递的情况下计算这些函数？我担心性能，但也许 Scalding 足够聪明，可以以编程方式检测到这一点。

hadoop cascading scalding

2013-03-26T17:38:15.027

0 投票

1 回答

833 浏览

hadoop - How do I force a reducer in cascading?

To gain some of the benefits only possible with reducers and not mappers.

hadoop mapreduce cascading

2013-04-11T15:12:37.280

0 投票

1 回答

895 浏览

hadoop - 如何在级联中重命名管道字段？

在两个不同的情况下，我不得不重命名管道中的所有字段以加入（使用Mergeor CoGroup）。我最近做的是：

显然这是非常脆弱的，因为我需要确保 FieldsFrom 和 FieldsTo 中的字段位置保持不变并且它们的大小相同等。

有没有更好的 - 不那么脆弱的合并方式而无需经历上述所有仪式？

hadoop mapreduce cascading

2013-04-11T15:36:51.197

0 投票

2 回答

1193 浏览

java - 使用级联框架运行hadoop程序时获取cascading.tap.hadoop.io.MultiInputSplit类未找到异常

这是我连接到 hadoop 机器并执行一组验证并在另一个目录上写入的代码。

}

我的工作正在提交给 hadoop 机器。我可以在工作跟踪器上查看这个。但是工作失败了，我在下面遇到异常。

cascading.tap.hadoop.io.MultiInputSplit 在 org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:389) 的 org.apache.hadoop.mapred.MapTask.getSplitDetails(MapTask.java:348) 中找不到org.apache.hadoop.mapred.MapTask.run(MapTask.java:333) at org.apache.hadoop.mapred.Child$4.run(Child.java:268) at java.security.AccessController.doPrivileged(Native Method)在 javax.security.auth.Subject.doAs(Subject.java:415) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1408) 在 org.apache.hadoop.mapred.Child.main(Child .java:262) 原因：java.lang.ClassNotFoundException：在 org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1493) 的 org.apache 中找不到类 cascading.tap.hadoop.io.MultiInputSplit。 hadoop.mapred.MapTask.getSplitDetails(MapTask.java:346) ...还有 7 个

java.lang.ClassNotFoundException：在 org.apache.hadoop.conf.Configuration.getClassByName（Configuration.java:1493）中找不到类 cascading.tap.hadoop.io.MultiInputSplit

请注意： 1. 我是从我的 Windows 机器上运行它，而 hadoop 是在不同的盒子上设置的。2.我正在为hadoop使用cloudera发行版，即CDH 4。

java hadoop cascading

2013-04-13T13:04:10.330

0 投票

1 回答

258 浏览

hadoop - Cascalog first-n - 无法加入谓词

我正在从cascalog 项目的克隆中的 lein repl 中完成以下示例。我跑过：

但是当我尝试这个时：

我明白了

这似乎是一个查询创建与执行的事情。是否可以创建执行此查询的查询？

hadoop clojure cascading cascalog

2013-04-19T02:43:28.110

0 投票

1 回答

276 浏览

methods - QueryDsl，使用 Java 或 Groovy 使方法级联 NULL 安全的优雅方式

如果在遍历可能为空的级联方法时经常遇到 NPE。例如，我想查询客户的“称呼”属性..

a、b 或 c 中的任何一个或全部都可能为 NULL，从而导致 NPE。

在 Java 或 Groovy 中防范此类 NPE 的最佳“querydsl”方式是什么？

（我不确定 Groovy 的 Elvis op 是否在 querydsl 语句中涵盖了这种情况）

methods groovy nullpointerexception querydsl cascading

2013-04-22T13:05:01.493

问题标签 [cascading]

Reference