“scalding”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

781 浏览

cascading - 使用烫伤从 HBase 读取

我对 Cascading/Scalding 非常陌生，并且无法弄清楚从 HBase 读取数据的热度。

我在 HBase 中有一张表，其中存储了扑克游戏的手牌历史记录（以非常简单的方式：）id -> hand, serialized with ProtoBuf。下面的工作应该遍历整个历史，并建立一个所有玩家的字典：

但是，当我运行上面的作业时，会抛出错误

，这意味着得到的数据flatMap不是我可以直接使用的字节数组。

我错过了什么？

cascading scalding

2012-08-08T05:16:04.567

0 投票

5 回答

3462 浏览

java - 级联示例编译失败？

cleanJar在 shell 中，我在 Impatient/part1 目录中输入了 gradle 。输出如下。错误是“找不到 org.apache.hadoop.mapred.JobConf 的类文件”。为什么编译失败？

2012-09-20T10:53:29.840

0 投票

5 回答

1240 浏览

scala - 如何在hadoop中实现或加入（烫伤/级联）

只需将连接字段作为 reducer 键发送即可通过单个键轻松连接数据集。但是通过几个键连接记录，其中至少一个应该是相同的，对我来说并不容易。

示例我有日志，我想按用户参数对它们进行分组，我想通过 (ipAddress, sessionId,visitorCockies) 加入它们

因此，如果 log1.ip == log2.ip OR log1.session = log2.session OR log1.cockie = log2.coockie，则 log1 应与 log2 分组。也许可以创建复合键或诸如 minHash 之类的概率方法...

可能吗？

scala join hadoop cascading scalding

2012-09-24T22:13:25.440

0 投票

3 回答

1247 浏览

scala - Twitter Scalding 中的 SQL Union 等效项

我需要加入 2 个具有相同字段集的管道，即（'id，'groupName，'name），与 SQL UNION 的工作方式相同。如何在 Twitter Scalding 中做到这一点？

scala mapreduce scalding

2012-10-22T12:23:04.607

0 投票

1 回答

258 浏览

macos - wordcount.scala 错误

我用 OSX Lion 在我的 Mac 上安装了 scalding。当我运行 word count.scala 程序来测试安装时，我收到以下错误消息：

macos scala scalding

2012-11-05T23:05:04.743

0 投票

2 回答

441 浏览

scala - 在 Hadoop 上计算偶数/奇数对的总和？

我想为 Hadoop 创建一个并行 scanLeft（计算关联运算符的前缀和）函数（特别是烫伤；请参阅下文了解如何完成）。

给定 hdfs 文件中的一系列数字（每行一个），我想用连续偶数/奇数对的总和计算一个新序列。例如：

输入序列：

0,1,2,3,4,5,6,7,8,9,10

输出顺序：

0+1、2+3、4+5、6+7、8+9、10

IE

1,5,9,13,17,10

我认为为了做到这一点，我需要为 Hadoop 编写一个 InputFormat 和 InputSplits 类，但我不知道该怎么做。

请参见此处的第 3.3 节。以下是 Scala 中的示例算法：

我知道这可能需要进行一些优化才能与 Hadoop 很好地配合使用。我认为直接翻译这个会导致非常低效的 Hadoop 代码。例如，显然在 Hadoop 中你不能使用 IndexedSeq。我会很感激你看到的任何具体问题。不过，我认为它可能会很好地工作。

scala hadoop functional-programming cascading scalding

2013-01-04T20:46:59.793

0 投票

2 回答

165 浏览

java - scalding 如何将用户函数传递给远程 MapReduce 节点

使用 Scalding 时，您可以提供一个函数。我想知道 scalding 如何将这些功能传递给远程 map/reduce 任务？这是使用scala中的东西还是可以用匿名对象完成的通用东西？

java scala scalding

2013-03-07T17:19:34.973

0 投票

1 回答

4775 浏览

hadoop - 级联 HBase Tap

我正在尝试编写必须连接到 HBase 的烫伤作业，但我在使用 HBase 水龙头时遇到了麻烦。我已经尝试使用Twitter Maple提供的水龙头，遵循这个示例项目，但我使用的 Hadoop/HBase 版本与 Twitter 用作客户端的版本之间似乎存在一些不兼容。

我的集群使用 HBase 0.92 和 Hadoop 2.0.0-cdh4.1.3运行Cloudera CDH4。每当我启动连接到 HBase 的 Scalding 作业时，都会出现异常

Twitter Maple 使用的 HBase 客户端似乎期望NetUtils在我的集群上部署的 Hadoop 版本上不存在某些方法。

我如何追踪到底是什么不匹配——HBase 客户端期望什么版本等等？一般来说，有没有办法缓解这些问题？

在我看来，客户端库通常是用硬编码版本的 Hadoop 依赖项编译的，很难使它们与部署的实际版本相匹配。

hadoop hbase cascading scalding

2013-03-12T14:08:39.533

0 投票

2 回答

876 浏览

hadoop - 如何在 Scalding 中一次平均几列？

作为使用 Scalding 进行某些计算的最后一步，我想计算管道中列的多个平均值。但是下面的代码不起作用

sum, max, average有没有什么方法可以在不进行多次传递的情况下计算这些函数？我担心性能，但也许 Scalding 足够聪明，可以以编程方式检测到这一点。

hadoop cascading scalding

2013-03-26T17:38:15.027

0 投票

5 回答

1447 浏览

java - 从 Scala（或 Java）访问 HBase 的替代方法

有人可以推荐好的解决方案（框架）来从Scala（或Java）应用程序访问HBase on Hadoop集群吗？

现在我正朝着烫伤的方向前进。我获得的原型允许我将烫伤库与Maven结合起来，并将烫伤作业 JAR 从“库”代码包中分离出来。这反过来又允许我从外部集群运行基于烫伤的 Hadoop 作业，每个作业的开销最小（“库”代码仅在它更改时才发布到集群“分布式缓存”（很少需要），因此我可以快速加载作业代码） .

现在我实际上开始使用 HBase 本身，我看到 scalding 很好，但它对 HBase 来说并不是那么“原生”。是的，有一些类似hbase-scalding的东西，但无论如何我都有一些计划未来的行动，我想知道我可能错过的其他好的解决方案。

预期：

应用程序（作业）的启动开销应该很低。我需要运行很多。
应该可以（更容易 - 更好）在没有任何 SSH 的情况下从外部集群运行作业（仅基于“hadoop jar”命令，甚至仅通过应用程序执行）。
乔布斯语言本身应该允许简短的逻辑语义。理想情况下，此代码应该足够简单，可以自动生成。
该解决方案在足够大的 HBase 表（最初最多 100.000.000 个条目）上应该是有效的。
好的，解决方案应该是“活的”（正在积极开发中），但在总体稳定性方面相对较好。

我认为这里的论证可能比解决方案本身更有用，这个问题应该为许多人增加一些想法。有什么平安的建议吗？

java scala hadoop hbase scalding

2013-04-16T19:32:48.743

问题标签 [scalding]

Reference