问题标签 [cascading]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4775 浏览

hadoop - 级联 HBase Tap

我正在尝试编写必须连接到 HBase 的烫伤作业,但我在使用 HBase 水龙头时遇到了麻烦。我已经尝试使用Twitter Maple提供的水龙头,遵循这个示例项目,但我使用的 Hadoop/HBase 版本与 Twitter 用作客户端的版本之间似乎存在一些不兼容。

我的集群使用 HBase 0.92 和 Hadoop 2.0.0-cdh4.1.3运行Cloudera CDH4。每当我启动连接到 HBase 的 Scalding 作业时,都会出现异常

Twitter Maple 使用的 HBase 客户端似乎期望NetUtils在我的集群上部署的 Hadoop 版本上不存在某些方法。

我如何追踪到底是什么不匹配——HBase 客户端期望什么版本等等?一般来说,有没有办法缓解这些问题?

在我看来,客户端库通常是用硬编码版本的 Hadoop 依赖项编译的,很难使它们与部署的实际版本相匹配。

0 投票
3 回答
492 浏览

hadoop - 在哪里可以找到安装和运行 cascading.jruby 的教程?

我已经安装了 Hadoop 并且测试正常,但是找不到任何关于 n00b 的说明

如何设置级联和 cascading.jruby。在哪里放置级联罐子以及如何配置 jading 以正确构建 ruby​​ 程序集?

有人使用詹金斯自动构建它吗?

编辑:更多细节我正在尝试从https://github.com/etsy/cascading.jruby构建示例字数统计作业

我已经安装

  1. hadoop,并成功运行测试。
  2. 安装了jruby
  3. 宝石安装级联.jruby
  4. 玉 - https://github.com/etsy/jading
  5. 安装蚂蚁

  6. 创建了 wordcount 样本 wc.rb

  7. 运行jade将wc.rb编译成jar

    玉wc.rb

  8. 我收到以下编译错误

    构建文件:build.xml 不存在!构建失败 RuntimeError: Ant 检索失败 (root) at /usr/bin/hjade:89

查看翡翠代码是有道理的,但是示例用法中没有涉及到这一点?我在这里想念什么?

0 投票
2 回答
624 浏览

cascading - 级联(缓冲区)实现

我需要在级联 hadoop 中创建一个缓冲区。

假设我有字段:

member_id,amountpaid,diadnosis_id,diagnosis_description,superGrouper_id,superGrouper_description,grouperId,grouperDescription

我需要

  1. member_id对来自和的字段进行分组superGrouper_id
  2. 使用每个管道将这些信息发送到缓冲区
  3. 缓冲区输出应该是:member_id,最高支付排序superGrouper,最高支付排序grouperId,最高支付diagnosis_id,以及它们的描述......

请帮我创建一个缓冲区。提前致谢

0 投票
1 回答
332 浏览

hadoop - 解释级联点图

有人可以解释如何阅读这些图表吗?我了解从头到尾的流程,但我特别想知道如何读取椭圆(管道/水龙头)之间的字段(括号)转换。

例如,使用图像中每个管道之后的字段,我能够解释这些的方式是第一个字段集,即 [{2}:'token', 'count'] 是进入下一个管道的内容/点击,但是第二个字段集[{1}:'token']的意义是什么?

这是进入上一个管道的字段集吗?第二个括号是否具有编程意义,即我们是否能够使用特定的级联代码在该管道中访问它?(在第二个字段集大于第一个的情况下)

不耐烦的厕所 PNG
(来源:cascading.org

0 投票
2 回答
876 浏览

hadoop - 如何在 Scalding 中一次平均几列?

作为使用 Scalding 进行某些计算的最后一步,我想计算管道中列的多个平均值。但是下面的代码不起作用

sum, max, average有没有什么方法可以在不进行多次传递的情况下计算这些函数?我担心性能,但也许 Scalding 足够聪明,可以以编程方式检测到这一点。

0 投票
1 回答
833 浏览

hadoop - How do I force a reducer in cascading?

To gain some of the benefits only possible with reducers and not mappers.

0 投票
1 回答
895 浏览

hadoop - 如何在级联中重命名管道字段?

在两个不同的情况下,我不得不重命名管道中的所有字段以加入(使用Mergeor CoGroup)。我最近做的是:

显然这是非常脆弱的,因为我需要确保 FieldsFrom 和 FieldsTo 中的字段位置保持不变并且它们的大小相同等。

有没有更好的 - 不那么脆弱的合并方式而无需经历上述所有仪式?

0 投票
2 回答
1193 浏览

java - 使用级联框架运行hadoop程序时获取cascading.tap.hadoop.io.MultiInputSplit类未找到异常

这是我连接到 hadoop 机器并执行一组验证并在另一个目录上写入的代码。

}

我的工作正在提交给 hadoop 机器。我可以在工作跟踪器上查看这个。但是工作失败了,我在下面遇到异常。

cascading.tap.hadoop.io.MultiInputSplit 在 org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:389) 的 org.apache.hadoop.mapred.MapTask.getSplitDetails(MapTask.java:348) 中找不到org.apache.hadoop.mapred.MapTask.run(MapTask.java:333) at org.apache.hadoop.mapred.Child$4.run(Child.java:268) at java.security.AccessController.doPrivileged(Native Method)在 javax.security.auth.Subject.doAs(Subject.java:415) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1408) 在 org.apache.hadoop.mapred.Child.main(Child .java:262) 原因:java.lang.ClassNotFoundException:在 org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1493) 的 org.apache 中找不到类 cascading.tap.hadoop.io.MultiInputSplit。 hadoop.mapred.MapTask.getSplitDetails(MapTask.java:346) ...还有 7 个

java.lang.ClassNotFoundException:在 org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1493)中找不到类 cascading.tap.hadoop.io.MultiInputSplit

请注意: 1. 我是从我的 Windows 机器上运行它,而 hadoop 是在不同的盒子上设置的。2.我正在为hadoop使用cloudera发行版,即CDH 4。

0 投票
1 回答
258 浏览

hadoop - Cascalog first-n - 无法加入谓词

我正在从cascalog 项目的克隆中的 lein repl 中完成以下示例。我跑过:

但是当我尝试这个时:

我明白了

这似乎是一个查询创建与执行的事情。是否可以创建执行此查询的查询?

0 投票
1 回答
276 浏览

methods - QueryDsl,使用 Java 或 Groovy 使方法级联 NULL 安全的优雅方式

如果在遍历可能为空的级联方法时经常遇到 NPE。例如,我想查询客户的“称呼”属性..

a、b 或 c 中的任何一个或全部都可能为 NULL,从而导致 NPE。

在 Java 或 Groovy 中防范此类 NPE 的最佳“querydsl”方式是什么?

(我不确定 Groovy 的 Elvis op 是否在 querydsl 语句中涵盖了这种情况)