问题标签 [scalding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
858 浏览

scala - 烫伤比较连续记录

有谁知道在创建模式时如何比较烫伤的连续记录。我正在查看教程 6,并假设如果记录 #2 中的数据大于记录 #1(对于所有记录),我想打印此人的年龄

例如:

编辑:查看代码我刚刚意识到它是一个 Scala 枚举,所以我的问题是如何比较 scala 枚举中的记录?

0 投票
1 回答
84 浏览

scala - 为什么映射对会消失?

我试图理解这里的例子,它计算矩阵中向量对之间的 Jaccard 相似度。

为什么最后一条评论提到非零值?据我所知,该._2函数选择一对独立于第一个元素的第二个元素。在什么时候(0, x)消除对?

0 投票
1 回答
10295 浏览

scala - 在 scala 中解压并读取 gzip 文件

在 Scala 中,如何解压缩其中包含的文本file.gz以便对其进行处理?我很乐意将文件的内容存储在变量中,或者将其保存为本地文件,以便之后程序可以读取它。

具体来说,我使用 Scalding 来处理压缩的日志数据,但 Scalding 并没有定义将它们读入FileSource.scala.

0 投票
1 回答
2141 浏览

twitter - 烫伤:在 groupBy('field){.size} 之后如何保留其他字段?

所以我的输入数据有两个字段/列:id1 & id2,我的代码如下:

输出结果(我假设)两个字段:id2 * size。我有点想知道是否可以保留也与 id2 分组的 id1 值并将其添加为另一个字段?

0 投票
2 回答
913 浏览

hadoop - 级联 + libjars = ClassNotFoundException。有时

我正在运行将 DistributedCache 用于依赖 jar 的 Cascading(实际上是 Scalding)hadoop 作业。

第一次它工作正常(意味着类路径设置正确)但随后它开始失败并出现 ClassNotFoundException:

有没有其他人在分布式缓存中使用级联和罐子取得成功

此消息似乎暗示 Cascading 对分布式缓存 jar 进行了一些内部处理。你能对此有所了解吗?

编辑:我在 Hadoop 1.0.3 上使用 Cascading 2.1.6

0 投票
2 回答
1237 浏览

scalding - Scalding 中的多个输入文件

我想处理存储在 s3中的大量文本文件。不幸的是,我不能简单地将列表与 MultipleTextLineFiles 源一起使用,因为方法代码变得太大并且抛出了 java.lang.RuntimeException。

我的最后一次尝试是使用包含文件列表的文本文件来发送 jar 文件,然后使用“scala.io.Source.fromURL(getClass.getResource(filename)).getLines().toSeq”读取该文件,但这失败了抛出 NoSuchElementException。

有什么建议么?

0 投票
0 回答
795 浏览

scala - 构建倒排索引超过 Java 堆大小

这可能是一个非常特殊的情况,但在我头疼了一段时间后,我想从 Stackoverflow 社区获得帮助。

我正在为大型数据集(来自大型系统的一天的数据)构建倒排索引。倒排索引的构建在 Hadoop 上作为 map reduce 作业执行。倒排索引是在 scala 的帮助下构建的。倒排索引的结构如下:{key:"New", ProductID:[1,2,3,4,5,...]}这些被写入 avro 文件。

在此过程中,我遇到了 Java 堆大小问题。我认为原因是我上面显示的“新”之类的术语包含大量产品 ID。我有一个粗略的想法,问题可能发生在我的 Scala 代码中:

这就是我使用这种方法的方式(它在许多地方使用,但使用相同的代码结构和登录名)

textPipeDump正在烫伤MultipleTextLine字段对象

我有一个案例类来拆分并从该文本行中获取我想要的字段,这就是对象ss

这是我的堆栈跟踪:

当我为小数据集执行 map reduce 作业时,我没有收到错误。这意味着随着数据的增加,我为 New 或 old 等词索引的项目/product_id 的数量会变大,这会导致堆大小溢出。

所以,问题是如何避免java堆大小溢出并完成这项任务。

0 投票
1 回答
208 浏览

mongodb - 烫伤 MongoDB 连接器

我正在使用 Scalding 进行 ETL 实现,并且我正在寻找一种将 Scalding 输出转发到 MongoDB 而不是 HDFS 的简单方法。

任何建议表示赞赏。

谢谢。

0 投票
3 回答
1320 浏览

scala - 烫伤样本 WordCount 本地模式

我正在尝试运行 Scalding 示例字数示例。我已按照此 github 链接执行步骤:- https://github.com/twitter/scalding/wiki/Getting-Started

但我得到了 ClassNotFoundException。下面是我的 StackTrace:-

请让我知道问题究竟出在哪里?

谢谢。

0 投票
2 回答
808 浏览

java - Scala-Scalding中求和列表的替代品是什么

我在维护一个大列表的地方有以下代码:我在这里所做的是检查数据流并创建一个倒排索引。我使用 twitter scalding api 并且 dataTypePipe 是 TypedPipe 的类型

由于序列化问题,我将 scala list 转换为 java list 并使用 avro 编写:

但问题是列表中保存的大量信息会导致 Java Heap 问题。我相信求和也是这个问题的一个贡献者

所以我的问题是我能做些什么来避免这种情况。