问题标签 [scalding]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

180 问题

0 投票

1 回答

858 浏览

scala - 烫伤比较连续记录

有谁知道在创建模式时如何比较烫伤的连续记录。我正在查看教程 6，并假设如果记录 #2 中的数据大于记录 #1（对于所有记录），我想打印此人的年龄

例如：

编辑：查看代码我刚刚意识到它是一个 Scala 枚举，所以我的问题是如何比较 scala 枚举中的记录？

2013-06-16T05:01:49.593

0 投票

1 回答

84 浏览

scala - 为什么映射对会消失？

我试图理解这里的例子，它计算矩阵中向量对之间的 Jaccard 相似度。

为什么最后一条评论提到非零值？据我所知，该._2函数选择一对独立于第一个元素的第二个元素。在什么时候(0, x)消除对？

scala scalding

2013-07-02T04:02:14.220

0 投票

1 回答

10295 浏览

scala - 在 scala 中解压并读取 gzip 文件

在 Scala 中，如何解压缩其中包含的文本file.gz以便对其进行处理？我很乐意将文件的内容存储在变量中，或者将其保存为本地文件，以便之后程序可以读取它。

具体来说，我使用 Scalding 来处理压缩的日志数据，但 Scalding 并没有定义将它们读入FileSource.scala.

scala gzip scalding

2013-07-02T22:00:45.137

0 投票

1 回答

2141 浏览

twitter - 烫伤：在 groupBy('field){.size} 之后如何保留其他字段？

所以我的输入数据有两个字段/列：id1 & id2，我的代码如下：

输出结果（我假设）两个字段：id2 * size。我有点想知道是否可以保留也与 id2 分组的 id1 值并将其添加为另一个字段？

twitter cascading scalding

2013-07-06T22:02:10.807

0 投票

2 回答

913 浏览

hadoop - 级联 + libjars = ClassNotFoundException。有时

我正在运行将 DistributedCache 用于依赖 jar 的 Cascading（实际上是 Scalding）hadoop 作业。

第一次它工作正常（意味着类路径设置正确）但随后它开始失败并出现 ClassNotFoundException：

有没有其他人在分布式缓存中使用级联和罐子取得成功

此消息似乎暗示 Cascading 对分布式缓存 jar 进行了一些内部处理。你能对此有所了解吗？

编辑：我在 Hadoop 1.0.3 上使用 Cascading 2.1.6

hadoop cascading scalding

2013-07-25T14:58:40.637

0 投票

2 回答

1237 浏览

scalding - Scalding 中的多个输入文件

我想处理存储在 s3中的大量文本文件。不幸的是，我不能简单地将列表与 MultipleTextLineFiles 源一起使用，因为方法代码变得太大并且抛出了 java.lang.RuntimeException。

我的最后一次尝试是使用包含文件列表的文本文件来发送 jar 文件，然后使用“scala.io.Source.fromURL(getClass.getResource(filename)).getLines().toSeq”读取该文件，但这失败了抛出 NoSuchElementException。

有什么建议么？

scalding

2013-07-26T13:35:39.597

0 投票

0 回答

795 浏览

scala - 构建倒排索引超过 Java 堆大小

这可能是一个非常特殊的情况，但在我头疼了一段时间后，我想从 Stackoverflow 社区获得帮助。

我正在为大型数据集（来自大型系统的一天的数据）构建倒排索引。倒排索引的构建在 Hadoop 上作为 map reduce 作业执行。倒排索引是在 scala 的帮助下构建的。倒排索引的结构如下：{key:"New", ProductID:[1,2,3,4,5,...]}这些被写入 avro 文件。

在此过程中，我遇到了 Java 堆大小问题。我认为原因是我上面显示的“新”之类的术语包含大量产品 ID。我有一个粗略的想法，问题可能发生在我的 Scala 代码中：

这就是我使用这种方法的方式（它在许多地方使用，但使用相同的代码结构和登录名）

textPipeDump正在烫伤MultipleTextLine字段对象

我有一个案例类来拆分并从该文本行中获取我想要的字段，这就是对象ss

这是我的堆栈跟踪：

当我为小数据集执行 map reduce 作业时，我没有收到错误。这意味着随着数据的增加，我为 New 或 old 等词索引的项目/product_id 的数量会变大，这会导致堆大小溢出。

所以，问题是如何避免java堆大小溢出并完成这项任务。

scala hadoop avro scalding

2013-07-31T20:36:54.547

0 投票

1 回答

208 浏览

mongodb - 烫伤 MongoDB 连接器

我正在使用 Scalding 进行 ETL 实现，并且我正在寻找一种将 Scalding 输出转发到 MongoDB 而不是 HDFS 的简单方法。

任何建议表示赞赏。

谢谢。

mongodb scalding

2013-08-13T13:38:41.050

0 投票

3 回答

1320 浏览

scala - 烫伤样本 WordCount 本地模式

我正在尝试运行 Scalding 示例字数示例。我已按照此 github 链接执行步骤：- https://github.com/twitter/scalding/wiki/Getting-Started

但我得到了 ClassNotFoundException。下面是我的 StackTrace：-

请让我知道问题究竟出在哪里？

谢谢。

scala twitter hadoop noclassdeffounderror scalding

2013-08-21T23:54:58.543

0 投票

2 回答

808 浏览

java - Scala-Scalding中求和列表的替代品是什么

我在维护一个大列表的地方有以下代码：我在这里所做的是检查数据流并创建一个倒排索引。我使用 twitter scalding api 并且 dataTypePipe 是 TypedPipe 的类型

由于序列化问题，我将 scala list 转换为 java list 并使用 avro 编写：

但问题是列表中保存的大量信息会导致 Java Heap 问题。我相信求和也是这个问题的一个贡献者

所以我的问题是我能做些什么来避免这种情况。

java scala mapreduce scalding

2013-08-26T01:29:39.937

1 2 3 4 5 6 7 8 9 10

问题标签 [scalding]

Reference