进行 Scalding MapReduce 操作我需要在元组字段上使用我自己的比较函数来比较元组。
问题:
- 如何定义我自己的元组比较函数?
- 一般来说,使用自定义 Scala 代码扩展 Scalding 的规则是什么?限制?
谢谢!
您可以创建虚拟字段(例如使用com.twitter.scalding.RichPipe#map
),按此字段排序,然后将其删除。这是基于Scalding 文档的示例:
val users = Csv(file_source, separator = ",", fields = Schema)
.read
.map ('age-> 'ageInt) {x:Int => x}
.groupAll { _.sortBy('ageInt) } // will sort age as a number.
.discard ('ageInt)