问题标签 [scalding]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

180 问题

0 投票

1 回答

453 浏览

scala - 从 RichPipe 中获取值

我有一个包含 3 个字段的 RichPipe：名称：字符串、时间：长和值：整数。我需要获取特定名称、时间对的值。我该怎么做？我无法从烫伤文档中弄清楚，因为它非常神秘，找不到任何这样做的例子。

2014-07-17T08:44:35.257

0 投票

0 回答

40 浏览

scala - 加入 RichPipes 时选择最大值

我有一个RichPipes包含以下字段的列表：

姓名：String
加入时间：Long
价值：Int

我想使用reduce按顺序加入它们。加入时，RichPipes我只想保留一个字段，value并且我希望它包含来自关节的最大值RichPipes。我该怎么做？

scala hadoop scalding

2014-07-17T13:54:10.963

0 投票

1 回答

49 浏览

scala - 合法代码在 Scalding 中无法编译

我正在 Scalding 中编写 MapReduce 作业，并且在编译对我来说完全合法的代码时遇到了困难。

连接是 RichPipe。getPersistenceValues 定义在与上述代码相同的类中，如下所示：

我不断收到以下错误：

我不知道发生了什么事。这些错误对我来说毫无意义。我究竟做错了什么？

scala hadoop scalding

2014-07-17T16:05:51.463

0 投票

1 回答

509 浏览

java - 如何在 scalding / hadoop 作业中运行 slim jar 而无需在 libjars 中编写完整的类路径

有没有一种方法可以运行需要类路径的烫伤作业，而无需使用 libjars 并明确编写每个 jar 以逗号分隔。

我想把我所有的罐子放在一个 lib 中，而不是只写 -libjars=./lib/* 而不是所有的罐子。

有没有经典的方法？？

使用烫伤版本 scalding-core_2.10 0.8.5

hadoop 版本 2.0.0-cdh4.5.0

PS我正在使用maven来打包jar和lib

java hadoop jar maven-3 scalding

2014-07-22T14:27:20.223

0 投票

1 回答

390 浏览

scala - groupBy toList 元素顺序

我有一个包含多个字段的 RichPipe，比方说：

我需要按 'sex 分组，然后得到一个元组列表（'weight 和 'age）。然后我想对每个组的列表进行 scanLeft 操作，并得到一个带有“sex”和“result”的管道。我目前这样做

然后将两个列表压缩在一起。我不确定这是最好的方法，而且我不确定列表中值的顺序是否相同，因此当我压缩两个列表时，元组不会与错误混淆价值观。我在文档中对此一无所知。

scala hadoop mapreduce cascading scalding

2014-07-23T10:49:50.253

0 投票

2 回答

1573 浏览

scala - Scalding：使用标头解析逗号分隔的数据

我有以下格式的数据：

在 Scalding 中解析它的最佳方法是什么？我总共有 50 多个专栏，但我只对其中一些感兴趣。我尝试使用 Csv("file") 导入它，但这不起作用。

想到的唯一解决方案是使用 TextLine 手动解析它并忽略偏移量 == 0 的行。但我确信必须有更好的解决方案。

scala parsing hadoop mapreduce scalding

2014-07-28T16:47:42.827

0 投票

0 回答

291 浏览

algorithm - 烫伤：如何减少列表的内存计算？

使用 Scalding 我试图找到相似字符串对之间的编辑距离。总而言之，我在 CSV 文件中有 10 000 000 个字符串。为了减少计算，我使用以下算法：

使用前三个字符作为键将所有字符串分组
在每组中生成两个字符串的组合
查找每个组中每对字符串的编辑距离（参见下面的代码）

当我在 HDFS 上运行此算法时，它适用于 1 000 000 个字符串。使用 10 000 000 个字符串，节点管理器抱怨我的“映射”作业尝试分配比节点更多的物理内存。.groupBy('key) { _.mapList ...}我知道当在代码中创建大量组合时会发生这种情况。当然，这个算法并不能真正扩展。

请建议其他方法来减少此任务的计算。

有任何想法吗？

algorithm scala hadoop scalding

2014-07-31T16:07:58.313

0 投票

2 回答

412 浏览

scalding - Scalding 是否支持通过带 Parquet 的谓词下推进行记录过滤？

不必读取会导致过滤器失败的记录有明显的速度优势。我看到 Spark 支持它，但我还没有找到任何关于如何使用 Scalding 进行操作的文档。

scalding parquet

2014-08-03T14:10:27.953

0 投票

4 回答

29531 浏览

scala - 函数式编程（特别是 Scala 和 Scala API）中 reduce 和 foldLeft/fold 之间的区别？

为什么 Scala 和 Spark 和 Scalding 等框架同时具有reduce和foldLeft？那么reduce和和有什么区别fold呢？

scala functional-programming reduce fold scalding

2014-08-06T11:07:14.750

0 投票

0 回答

135 浏览

hadoop - 在级联中使用 TextLine 加载极长的行

我在 Cascading 中使用 TextLine 来加载 Cascading 中具有非常大行的文件。这些行很长——平均大约 30Mb，有些更长。当我在本地运行作业以对其进行测试时，它运行良好，但是当我在集群上运行它时，它在经过一段时间的密集处理后失败。它给出了如下错误：

它有时也会抱怨陈旧的文件句柄。它试图读取的文件肯定在那里。有人可以帮我吗？

hadoop mapreduce cascading scalding mapr

2014-08-14T18:15:51.563

1 2 3 4 5 6 7 8 9 10

问题标签 [scalding]

Reference