问题标签 [cascading]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 级联 HBase Tap
我正在尝试编写必须连接到 HBase 的烫伤作业,但我在使用 HBase 水龙头时遇到了麻烦。我已经尝试使用Twitter Maple提供的水龙头,遵循这个示例项目,但我使用的 Hadoop/HBase 版本与 Twitter 用作客户端的版本之间似乎存在一些不兼容。
我的集群使用 HBase 0.92 和 Hadoop 2.0.0-cdh4.1.3运行Cloudera CDH4。每当我启动连接到 HBase 的 Scalding 作业时,都会出现异常
Twitter Maple 使用的 HBase 客户端似乎期望NetUtils
在我的集群上部署的 Hadoop 版本上不存在某些方法。
我如何追踪到底是什么不匹配——HBase 客户端期望什么版本等等?一般来说,有没有办法缓解这些问题?
在我看来,客户端库通常是用硬编码版本的 Hadoop 依赖项编译的,很难使它们与部署的实际版本相匹配。
hadoop - 在哪里可以找到安装和运行 cascading.jruby 的教程?
我已经安装了 Hadoop 并且测试正常,但是找不到任何关于 n00b 的说明
如何设置级联和 cascading.jruby。在哪里放置级联罐子以及如何配置 jading 以正确构建 ruby 程序集?
有人使用詹金斯自动构建它吗?
编辑:更多细节我正在尝试从https://github.com/etsy/cascading.jruby构建示例字数统计作业
我已经安装
- hadoop,并成功运行测试。
- 安装了jruby
- 宝石安装级联.jruby
- 玉 - https://github.com/etsy/jading
安装蚂蚁
创建了 wordcount 样本 wc.rb
运行jade将wc.rb编译成jar
玉wc.rb
我收到以下编译错误
构建文件:build.xml 不存在!构建失败 RuntimeError: Ant 检索失败 (root) at /usr/bin/hjade:89
查看翡翠代码是有道理的,但是示例用法中没有涉及到这一点?我在这里想念什么?
cascading - 级联(缓冲区)实现
我需要在级联 hadoop 中创建一个缓冲区。
假设我有字段:
member_id,amountpaid,diadnosis_id,diagnosis_description,superGrouper_id,superGrouper_description,grouperId,grouperDescription
我需要
member_id
对来自和的字段进行分组superGrouper_id
- 使用每个管道将这些信息发送到缓冲区
- 缓冲区输出应该是:
member_id
,最高支付排序superGrouper
,最高支付排序grouperId
,最高支付diagnosis_id
,以及它们的描述......
请帮我创建一个缓冲区。提前致谢
hadoop - 解释级联点图
有人可以解释如何阅读这些图表吗?我了解从头到尾的流程,但我特别想知道如何读取椭圆(管道/水龙头)之间的字段(括号)转换。
例如,使用图像中每个管道之后的字段,我能够解释这些的方式是第一个字段集,即 [{2}:'token', 'count'] 是进入下一个管道的内容/点击,但是第二个字段集[{1}:'token']的意义是什么?
这是进入上一个管道的字段集吗?第二个括号是否具有编程意义,即我们是否能够使用特定的级联代码在该管道中访问它?(在第二个字段集大于第一个的情况下)
(来源:cascading.org)
hadoop - 如何在 Scalding 中一次平均几列?
作为使用 Scalding 进行某些计算的最后一步,我想计算管道中列的多个平均值。但是下面的代码不起作用
sum, max, average
有没有什么方法可以在不进行多次传递的情况下计算这些函数?我担心性能,但也许 Scalding 足够聪明,可以以编程方式检测到这一点。
hadoop - How do I force a reducer in cascading?
To gain some of the benefits only possible with reducers and not mappers.
hadoop - 如何在级联中重命名管道字段?
在两个不同的情况下,我不得不重命名管道中的所有字段以加入(使用Merge
or CoGroup
)。我最近做的是:
显然这是非常脆弱的,因为我需要确保 FieldsFrom 和 FieldsTo 中的字段位置保持不变并且它们的大小相同等。
有没有更好的 - 不那么脆弱的合并方式而无需经历上述所有仪式?
java - 使用级联框架运行hadoop程序时获取cascading.tap.hadoop.io.MultiInputSplit类未找到异常
这是我连接到 hadoop 机器并执行一组验证并在另一个目录上写入的代码。
}
我的工作正在提交给 hadoop 机器。我可以在工作跟踪器上查看这个。但是工作失败了,我在下面遇到异常。
cascading.tap.hadoop.io.MultiInputSplit 在 org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:389) 的 org.apache.hadoop.mapred.MapTask.getSplitDetails(MapTask.java:348) 中找不到org.apache.hadoop.mapred.MapTask.run(MapTask.java:333) at org.apache.hadoop.mapred.Child$4.run(Child.java:268) at java.security.AccessController.doPrivileged(Native Method)在 javax.security.auth.Subject.doAs(Subject.java:415) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1408) 在 org.apache.hadoop.mapred.Child.main(Child .java:262) 原因:java.lang.ClassNotFoundException:在 org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1493) 的 org.apache 中找不到类 cascading.tap.hadoop.io.MultiInputSplit。 hadoop.mapred.MapTask.getSplitDetails(MapTask.java:346) ...还有 7 个
java.lang.ClassNotFoundException:在 org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1493)中找不到类 cascading.tap.hadoop.io.MultiInputSplit
请注意: 1. 我是从我的 Windows 机器上运行它,而 hadoop 是在不同的盒子上设置的。2.我正在为hadoop使用cloudera发行版,即CDH 4。
methods - QueryDsl,使用 Java 或 Groovy 使方法级联 NULL 安全的优雅方式
如果在遍历可能为空的级联方法时经常遇到 NPE。例如,我想查询客户的“称呼”属性..
a、b 或 c 中的任何一个或全部都可能为 NULL,从而导致 NPE。
在 Java 或 Groovy 中防范此类 NPE 的最佳“querydsl”方式是什么?
(我不确定 Groovy 的 Elvis op 是否在 querydsl 语句中涵盖了这种情况)