问题标签 [scalding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 烫伤比较连续记录
有谁知道在创建模式时如何比较烫伤的连续记录。我正在查看教程 6,并假设如果记录 #2 中的数据大于记录 #1(对于所有记录),我想打印此人的年龄
例如:
编辑:查看代码我刚刚意识到它是一个 Scala 枚举,所以我的问题是如何比较 scala 枚举中的记录?
scala - 为什么映射对会消失?
我试图理解这里的例子,它计算矩阵中向量对之间的 Jaccard 相似度。
为什么最后一条评论提到非零值?据我所知,该._2
函数选择一对独立于第一个元素的第二个元素。在什么时候(0, x)
消除对?
scala - 在 scala 中解压并读取 gzip 文件
在 Scala 中,如何解压缩其中包含的文本file.gz
以便对其进行处理?我很乐意将文件的内容存储在变量中,或者将其保存为本地文件,以便之后程序可以读取它。
具体来说,我使用 Scalding 来处理压缩的日志数据,但 Scalding 并没有定义将它们读入FileSource.scala
.
twitter - 烫伤:在 groupBy('field){.size} 之后如何保留其他字段?
所以我的输入数据有两个字段/列:id1 & id2,我的代码如下:
输出结果(我假设)两个字段:id2 * size。我有点想知道是否可以保留也与 id2 分组的 id1 值并将其添加为另一个字段?
hadoop - 级联 + libjars = ClassNotFoundException。有时
我正在运行将 DistributedCache 用于依赖 jar 的 Cascading(实际上是 Scalding)hadoop 作业。
第一次它工作正常(意味着类路径设置正确)但随后它开始失败并出现 ClassNotFoundException:
有没有其他人在分布式缓存中使用级联和罐子取得成功
此消息似乎暗示 Cascading 对分布式缓存 jar 进行了一些内部处理。你能对此有所了解吗?
编辑:我在 Hadoop 1.0.3 上使用 Cascading 2.1.6
scalding - Scalding 中的多个输入文件
我想处理存储在 s3中的大量文本文件。不幸的是,我不能简单地将列表与 MultipleTextLineFiles 源一起使用,因为方法代码变得太大并且抛出了 java.lang.RuntimeException。
我的最后一次尝试是使用包含文件列表的文本文件来发送 jar 文件,然后使用“scala.io.Source.fromURL(getClass.getResource(filename)).getLines().toSeq”读取该文件,但这失败了抛出 NoSuchElementException。
有什么建议么?
scala - 构建倒排索引超过 Java 堆大小
这可能是一个非常特殊的情况,但在我头疼了一段时间后,我想从 Stackoverflow 社区获得帮助。
我正在为大型数据集(来自大型系统的一天的数据)构建倒排索引。倒排索引的构建在 Hadoop 上作为 map reduce 作业执行。倒排索引是在 scala 的帮助下构建的。倒排索引的结构如下:{key:"New", ProductID:[1,2,3,4,5,...]}
这些被写入 avro 文件。
在此过程中,我遇到了 Java 堆大小问题。我认为原因是我上面显示的“新”之类的术语包含大量产品 ID。我有一个粗略的想法,问题可能发生在我的 Scala 代码中:
这就是我使用这种方法的方式(它在许多地方使用,但使用相同的代码结构和登录名)
textPipeDump
正在烫伤MultipleTextLine
字段对象
我有一个案例类来拆分并从该文本行中获取我想要的字段,这就是对象ss
这是我的堆栈跟踪:
当我为小数据集执行 map reduce 作业时,我没有收到错误。这意味着随着数据的增加,我为 New 或 old 等词索引的项目/product_id 的数量会变大,这会导致堆大小溢出。
所以,问题是如何避免java堆大小溢出并完成这项任务。
mongodb - 烫伤 MongoDB 连接器
我正在使用 Scalding 进行 ETL 实现,并且我正在寻找一种将 Scalding 输出转发到 MongoDB 而不是 HDFS 的简单方法。
任何建议表示赞赏。
谢谢。
scala - 烫伤样本 WordCount 本地模式
我正在尝试运行 Scalding 示例字数示例。我已按照此 github 链接执行步骤:- https://github.com/twitter/scalding/wiki/Getting-Started
但我得到了 ClassNotFoundException。下面是我的 StackTrace:-
请让我知道问题究竟出在哪里?
谢谢。
java - Scala-Scalding中求和列表的替代品是什么
我在维护一个大列表的地方有以下代码:我在这里所做的是检查数据流并创建一个倒排索引。我使用 twitter scalding api 并且 dataTypePipe 是 TypedPipe 的类型
由于序列化问题,我将 scala list 转换为 java list 并使用 avro 编写:
但问题是列表中保存的大量信息会导致 Java Heap 问题。我相信求和也是这个问题的一个贡献者
所以我的问题是我能做些什么来避免这种情况。