问题标签 [scalding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
453 浏览

scala - 从 RichPipe 中获取值

我有一个包含 3 个字段的 RichPipe:名称:字符串、时间:长和值:整数。我需要获取特定名称、时间对的值。我该怎么做?我无法从烫伤文档中弄清楚,因为它非常神秘,找不到任何这样做的例子。

0 投票
0 回答
40 浏览

scala - 加入 RichPipes 时选择最大值

我有一个RichPipes包含以下字段的列表:

  • 姓名:String
  • 加入时间:Long
  • 价值:Int

我想使用reduce按顺序加入它们。加入时,RichPipes我只想保留一个字段,value并且我希望它包含来自关节的最大值RichPipes。我该怎么做?

0 投票
1 回答
49 浏览

scala - 合法代码在 Scalding 中无法编译

我正在 Scalding 中编写 MapReduce 作业,并且在编译对我来说完全合法的代码时遇到了困难。

连接是 RichPipe。getPersistenceValues 定义在与上述代码相同的类中,如下所示:

我不断收到以下错误:

我不知道发生了什么事。这些错误对我来说毫无意义。我究竟做错了什么?

0 投票
1 回答
509 浏览

java - 如何在 scalding / hadoop 作业中运行 slim jar 而无需在 libjars 中编写完整的类路径

有没有一种方法可以运行需要类路径的烫伤作业,而无需使用 libjars 并明确编写每个 jar 以逗号分隔。

我想把我所有的罐子放在一个 lib 中,而不是只写 -libjars=./lib/* 而不是所有的罐子。

有没有经典的方法??

使用烫伤版本 scalding-core_2.10 0.8.5

hadoop 版本 2.0.0-cdh4.5.0

PS我正在使用maven来打包jar和lib

0 投票
1 回答
390 浏览

scala - groupBy toList 元素顺序

我有一个包含多个字段的 RichPipe,比方说:

我需要按 'sex 分组,然后得到一个元组列表('weight 和 'age)。然后我想对每个组的列表进行 scanLeft 操作,并得到一个带有“sex”和“result”的管道。我目前这样做

然后将两个列表压缩在一起。我不确定这是最好的方法,而且我不确定列表中值的顺序是否相同,因此当我压缩两个列表时,元组不会与错误混淆价值观。我在文档中对此一无所知。

0 投票
2 回答
1573 浏览

scala - Scalding:使用标头解析逗号分隔的数据

我有以下格式的数据:

在 Scalding 中解析它的最佳方法是什么?我总共有 50 多个专栏,但我只对其中一些感兴趣。我尝试使用 Csv("file") 导入它,但这不起作用。

想到的唯一解决方案是使用 TextLine 手动解析它并忽略偏移量 == 0 的行。但我确信必须有更好的解决方案。

0 投票
0 回答
291 浏览

algorithm - 烫伤:如何减少列表的内存计算?

使用 Scalding 我试图找到相似字符串对之间的编辑距离。总而言之,我在 CSV 文件中有 10 000 000 个字符串。为了减少计算,我使用以下算法:

  1. 使用前三个字符作为键将所有字符串分组
  2. 在每组中生成两个字符串的组合
  3. 查找每个组中每对字符串的编辑距离(参见下面的代码)

当我在 HDFS 上运行此算法时,它适用于 1 000 000 个字符串。使用 10 000 000 个字符串,节点管理器抱怨我的“映射”作业尝试分配比节点更多的物理内存。.groupBy('key) { _.mapList ...}我知道当在代码中创建大量组合时会发生这种情况。当然,这个算法并不能真正扩展。

请建议其他方法来减少此任务的计算。

有任何想法吗?

0 投票
2 回答
412 浏览

scalding - Scalding 是否支持通过带 Parquet 的谓词下推进行记录过滤?

不必读取会导致过滤器失败的记录有明显的速度优势。我看到 Spark 支持它,但我还没有找到任何关于如何使用 Scalding 进行操作的文档。

0 投票
4 回答
29531 浏览

scala - 函数式编程(特别是 Scala 和 Scala API)中 reduce 和 foldLeft/fold 之间的区别?

为什么 Scala 和 Spark 和 Scalding 等框架同时具有reducefoldLeft?那么reduce和 和有什么区别fold呢?

0 投票
0 回答
135 浏览

hadoop - 在级联中使用 TextLine 加载极长的行

我在 Cascading 中使用 TextLine 来加载 Cascading 中具有非常大行的文件。这些行很长——平均大约 30Mb,有些更长。当我在本地运行作业以对其进行测试时,它运行良好,但是当我在集群上运行它时,它在经过一段时间的密集处理后失败。它给出了如下错误:

它有时也会抱怨陈旧的文件句柄。它试图读取的文件肯定在那里。有人可以帮我吗?