- 假设我们有一个 (String, String)-Tuple 的迭代器。
- 所述迭代器有大量元素,可能会耗尽主内存。
如果你必须像下面这样聚合它,你会怎么做:
元组的形式为(entityname, attributename)
,您必须填充attributenames
. 此外,迭代器将是完全无序的,并且永远不会放入内存中。
(例如,最后一个和第一个属性名称可以对应于相同的实体名称)。
一个具体的例子:
("stackoverflow","users"),
("bear","claws"),
("stackoverflow","usesAjaxTechnology"),
("bear","eyes")
聚合后 -> :
("stackoverflow",List("users","usesAjaxTechnology")),
("bear",List("claws","eyes")).
我知道有statemenst likegroupBy
等等,但这会假设迭代器有很多元素由于内存问题而永远无法工作?