apache-spark - 激发有效分布配对以比较群组

问问题 2019-09-03T14:07:23.837

41 次

1

如何有效地比较 Spark 中匹配的同类群组？

在 python 中，对于高度不平衡的数据集中的少数类的每个观察，k可以以一种相当简单的方式实现对多数类的采样观察（即按年龄和性别为每个病人匹配一个健康人）：

提高性能，计算与 pandas或python中的特定条件匹配的随机样本每组 1:1 分层抽样

但是如何在 spark 中扩展呢？天真地，带有过滤器的自连接应该可以工作。但是由于生成了太多的元组，这失败了。

有更聪明的策略吗？也许像 LSH 这样的智能哈希？

0 回答 0