问题标签 [scalding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
781 浏览

cascading - 使用烫伤从 HBase 读取

我对 Cascading/Scalding 非常陌生,并且无法弄清楚从 HBase 读取数据的热度。

我在 HBase 中有一张表,其中存储了扑克游戏的手牌历史记录(以非常简单的方式:)id -> hand, serialized with ProtoBuf。下面的工作应该遍历整个历史,并建立一个所有玩家的字典:

但是,当我运行上面的作业时,会抛出错误

,这意味着得到的数据flatMap不是我可以直接使用的字节数组。

我错过了什么?

0 投票
5 回答
3462 浏览

java - 级联示例编译失败?

cleanJar在 shell 中,我在 Impatient/part1 目录中输入了 gradle 。输出如下。错误是“找不到 org.apache.hadoop.mapred.JobConf 的类文件”。为什么编译失败?

0 投票
5 回答
1240 浏览

scala - 如何在hadoop中实现或加入(烫伤/级联)

只需将连接字段作为 reducer 键发送即可通过单个键轻松连接数据集。但是通过几个键连接记录,其中至少一个应该是相同的,对我来说并不容易。

示例 我有日志,我想按用户参数对它们进行分组,我想通过 (ipAddress, sessionId,visitorCockies) 加入它们

因此,如果 log1.ip == log2.ip OR log1.session = log2.session OR log1.cockie = log2.coockie,则 log1 应与 log2 分组。也许可以创建复合键或诸如 minHash 之类的概率方法...

可能吗?

0 投票
3 回答
1247 浏览

scala - Twitter Scalding 中的 SQL Union 等效项

我需要加入 2 个具有相同字段集的管道,即('id,'groupName,'name),与 SQL UNION 的工作方式相同。如何在 Twitter Scalding 中做到这一点?

0 投票
1 回答
258 浏览

macos - wordcount.scala 错误

我用 OSX Lion 在我的 Mac 上安装了 scalding。当我运行 word count.scala 程序来测试安装时,我收到以下错误消息:

0 投票
2 回答
441 浏览

scala - 在 Hadoop 上计算偶数/奇数对的总和?

我想为 Hadoop 创建一个并行 scanLeft(计算关联运算符的前缀和)函数(特别是烫伤;请参阅下文了解如何完成)。

给定 hdfs 文件中的一系列数字(每行一个),我想用连续偶数/奇数对的总和计算一个新序列。例如:

输入序列:

0,1,2,3,4,5,6,7,8,9,10

输出顺序:

0+1、2+3、4+5、6+7、8+9、10

IE

1,5,9,13,17,10

我认为为了做到这一点,我需要为 Hadoop 编写一个 InputFormat 和 InputSplits 类,但我不知道该怎么做。

请参见此处的第 3.3 节。以下是 Scala 中的示例算法:

我知道这可能需要进行一些优化才能与 Hadoop 很好地配合使用。我认为直接翻译这个会导致非常低效的 Hadoop 代码。例如,显然在 Hadoop 中你不能使用 IndexedSeq。我会很感激你看到的任何具体问题。不过,我认为它可能会很好地工作。

0 投票
2 回答
165 浏览

java - scalding 如何将用户函数传递给远程 MapReduce 节点

使用 Scalding 时,您可以提供一个函数。我想知道 scalding 如何将这些功能传递给远程 map/reduce 任务?这是使用scala中的东西还是可以用匿名对象完成的通用东西?

0 投票
1 回答
4775 浏览

hadoop - 级联 HBase Tap

我正在尝试编写必须连接到 HBase 的烫伤作业,但我在使用 HBase 水龙头时遇到了麻烦。我已经尝试使用Twitter Maple提供的水龙头,遵循这个示例项目,但我使用的 Hadoop/HBase 版本与 Twitter 用作客户端的版本之间似乎存在一些不兼容。

我的集群使用 HBase 0.92 和 Hadoop 2.0.0-cdh4.1.3运行Cloudera CDH4。每当我启动连接到 HBase 的 Scalding 作业时,都会出现异常

Twitter Maple 使用的 HBase 客户端似乎期望NetUtils在我的集群上部署的 Hadoop 版本上不存在某些方法。

我如何追踪到底是什么不匹配——HBase 客户端期望什么版本等等?一般来说,有没有办法缓解这些问题?

在我看来,客户端库通常是用硬编码版本的 Hadoop 依赖项编译的,很难使它们与部署的实际版本相匹配。

0 投票
2 回答
876 浏览

hadoop - 如何在 Scalding 中一次平均几列?

作为使用 Scalding 进行某些计算的最后一步,我想计算管道中列的多个平均值。但是下面的代码不起作用

sum, max, average有没有什么方法可以在不进行多次传递的情况下计算这些函数?我担心性能,但也许 Scalding 足够聪明,可以以编程方式检测到这一点。

0 投票
5 回答
1447 浏览

java - 从 Scala(或 Java)访问 HBase 的替代方法

有人可以推荐好的解决方案(框架)来从Scala(或Java)应用程序访问HBase on Hadoop集群吗?

现在我正朝着烫伤的方向前进。我获得的原型允许我将烫伤库与Maven结合起来,并将烫伤作业 JAR 从“库”代码包中分离出来。这反过来又允许我从外部集群运行基于烫伤的 Hadoop 作业,每个作业的开销最小(“库”代码仅在它更改时才发布到集群“分布式缓存”(很少需要),因此我可以快速加载作业代码) .

现在我实际上开始使用 HBase 本身,我看到 scalding 很好,但它对 HBase 来说并不是那么“原生”。是的,有一些类似hbase-scalding的东西,但无论如何我都有一些计划未来的行动,我想知道我可能错过的其他好的解决方案。

预期:

  • 应用程序(作业)的启动开销应该很低。我需要运行很多。
  • 应该可以(更容易 - 更好)在没有任何 SSH 的情况下从外部集群运行作业(仅基于“hadoop jar”命令,甚至仅通过应用程序执行)。
  • 乔布斯语言本身应该允许简短的逻辑语义。理想情况下,此代码应该足够简单,可以自动生成。
  • 该解决方案在足够大的 HBase 表(最初最多 100.000.000 个条目)上应该是有效的。
  • 好的,解决方案应该是“活的”(正在积极开发中),但在总体稳定性方面相对较好。

我认为这里的论证可能比解决方案本身更有用,这个问题应该为许多人增加一些想法。有什么平安的建议吗?